专题式Web信息获取技术研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:Okira_lacusO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息获取存在已经有十几年的历史,近年来网络信息量飞速增长,使得传统的综合性信息获取的发展变得越来越困难,他无法及时的收集所有信息,而且由于信息数量太多,在准确率上无法满足人们的需要。固此,小型的专题信息采集成为近年的研究热点,具备了极高的研究价值。 本文论述了Web信息获取的用途、历史、现状及发展,介绍了信息获取系统的主要流程,对其中现在比较流行的主要算法进行了介绍和比较,分析了中国目前在化工专业方向的网络信息分布情况。使用Java以及SQL Server 2000数据库构建了一个专题式的Web信息获取系统,其中利用元搜索引擎的原理采用人工加机器的方式从网络上收集种子,通过提供全面、准确的网站网址,简化数据过滤的工作,并且在此基础上实现了高效、灵活的信息下载功能。对在HTML的解析,文件过滤中遇到的问题提出了解决的方法,对整个系统的性能及未来的发展提出了总结。 从最后的结果来看,这套系统的方案是行之有效的,获取到的页面质量很好。相信本课题的研究成果也能够适用于其他方向的专题信息获取。
其他文献
网络计算机(NC,Network Computer)作为网络计算的主要表现形式,其相关技术及产品成为技术界和产业界的热点,它的应用与普及,对推动网络及网络计算的发展作用重大。我国发展网
  本文结合OSPFv3测试过程,讨论了一致性测试概念、一致性测试级别、测试过程、测试模型、测试方法和测试套的结构以及形式化方法和对OSPF的形式化描述。介绍了一种OSPFv3协
函数加密是公钥密码领域中一个新的研究热点,也是对身份基加密、属性基加密、谓词加密等一系列研究的延伸与发展。函数加密使得用户能对密文实现部分解密,具有特定解密密钥的用
本文在介绍相关研究背景及关键技术的基础上,主要从应用的角度以数据仓库技术为基础,针对银行卡业务,进行了银行卡业务的需求分析;设计了适合银行卡业务的决策支持系统框架:确定分
随着计算机网络、通信网络以及分布式系统的不断发展,通信协议有日渐复杂化的趋势,形式描述技术在网络协议设计中占有举足轻重的作用,作为国际化标准之一的LOTOS技术是专为分
我们生活在一个信息化的社会中,信息高速公路是我们传递信息的载体,而网络是这一载体的核心。互连在一起的网络要进行通讯有许多问题要解决,路由选择是其中重要的内容。正确
  近些年来,PACS(PictureArchivingandCommunicationSystem)系统的应用已从原来局限于放射科的数字化的医学影像管理,发展成为以数字化诊断为核心的整个影像管理过程,这里我们
并行分布式系统是计算机行业和日常生活中不断增长的应用领域,特别是在分布式计算、工业控制、军事航天领域、以及商务应用等。对实现有如此关键性应用的分布式系统来说,努力
随着嵌入式系统的应用越来越普及的趋势,嵌入式系统的开发者也越来越多。虽然主流的嵌入式CPU都已经将昂贵的实时在线调试器内置在芯片中,但还需要具备一定的软硬件辅助才能实
近年来,随着计算机技术和多媒体技术的发展,大量的图像数据不断涌现,图像检索技术成为当今一大研究热门课题。 本文首先介绍了图像检索技术的发展历史,对基于内容的图像检