【摘 要】
:
随着World Wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰
论文部分内容阅读
随着World Wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰富的信息蕴藏在Hidden Web中,由于Hidden Web数据的隐藏特性,传统的搜索引擎对其不做索引,导致大量的有用信息被浪费。而有效地把这些信息加以利用是一件十分具有挑战性的工作。对于Hidden Web的获取目前成为信息检索研究的一个新兴领域。本文首先介绍了Hidden Web的成因和结构特点,然后对比了Hidden Web爬虫和传统爬虫的异同之处,分析了在设计Hidden Web爬虫时需要解决的关键性技术。在总结现有的网络爬虫的基础上,通过对其架构进行改进和优化,提出了一种基于主题获取Hidden Web信息的方法,文中给出了系统的框架结构,分析了Hidden Web爬虫抓取页面时的几个步骤,并讨论了实现的关键技术。通过引入的主题技术,能够节省网络资源,减少在不相关站点的停留,提高了抓取的准确率;文中设计的启发式查询词选择算法,能够每次自动从候选查询词中选择“最佳”查询词进行提交。与现有的网络爬虫采用的算法相比,该算法有效地减少了查询词提交的次数,从而提高了抓取的效率。实验表明,该方法和早期的解决方案相比,取得了较好的抓取效果。
其他文献
随着虚拟仪表应用的不断发展,虚拟仪表的网络化成为当前研究的热点,本文结合嵌入式技术、SoC技术、网络技术和虚拟仪表技术提出了两种研究方案,一种方案是实现Internet嵌入式网
随着市场经济的发展和贸易的全球化,企业面临着越来越激烈的市场竞争。海关进出口提单从表面来看只是一些贸易数据,但在国际贸易实战中,每一项对于企业贸易来说都有着极其深
无线Mesh网络(Wireless Mesh Network)简称WMN,是一种新型的无线通信网络。无线Mesh网络具有自组织性和自愈的特点,并具有有效的移动用户管理和跟踪机制,是一种多跳的宽带无
IPv6以其技术上的优势已成为下一代互联网和未来无线移动通信网络的基础。经过十几年的研究和发展,其标准体系已经基本完善,但由于其部署的成本和当前设备的兼容性等问题,使
随着Web应用信息系统的日益复杂,规模不断扩大,软件复杂性不断增加,如何保证Web应用的正确性和可靠性日益受到人们关注。Web应用系统的测试也已成为软件开发过程中的一个重要
以Internet为代表的IP网络正在逐渐成为人类社会通信的基础设施,网络规模不断扩大,异构化程度不断增加,带宽成倍增长,网络日益复杂,有必要对网络的拓扑结构和网络行为进行深
近年来,在钢铁材质质量检测的研究领域,电磁无损检测方法以其非破坏性和简便快速的优点取得了大量成果,然而对于钢材及其制品的混料、硬度和裂纹质量检测还存在许多难题。如
随着新的普适计算和环境智能应用的出现,各种不同形态的轻量级计算设备中嵌入数据库技术的需求也日益强烈。同时,半导体工业正在封装越来越多的晶体管到单一硅片上,使实现比
本文研究背景是基于OpenGL的闪电模拟仿真,主要从仿真模型的建立和开发实现两方面,讨论了本课题在研究和开发过程中解决的主要问题以及使用的主要技术。本文首先简单的介绍了
由于移动计算网络具有移动性、快速搭建性、自治性、拓扑结构易变性和对等性等特点,使其具有广泛的应用前景。与分布式计算相比,移动计算系统通讯带宽窄、移动结点存储容量有