一种高性能网络爬虫系统关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dyyangcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展带来了网络信息量的飞速增长。与此同时,出现了如数据挖掘、搜索引擎等诸多研究领域。而这些研究的开展都离不开网络爬虫的支持。网络爬虫系统性能的好坏对于上述研究的影响十分巨大。如何准确快速的爬取到网络中的信息将是衡量一个网络爬虫系统性能高低的关键因素。本文通过提高目标链接提取的准确率以及业务数据缓存的效率,从而达到提升爬虫系统性能的目的。  针对目标链接提取准确率的问题,本文通过非重复链接提取和相关链接提取两个方面进行准确率的提升。首先对布隆过滤器进行改进,提出了基于链接特征的多级动态布隆过滤器。该布隆过滤器通过将URL分段组合,进行多次匹配,降低了URL去重的误判率,提升了非重复链接提取的准确率。其次,通过提出基于链接属性的相关链接提取算法提升相关链接提取的准确率,该算法通过对网页结构、语义、主题以及链接文字比率等不同的链接属性设置规则,通过规则比较,淘汰不符合规则的噪声链接来提升链接提取的准确率,避免爬虫对一些噪声链接进行爬取。最后通过实验验证,这两种方法能够提高目标链接提取的准确率。  针对业务数据缓存效率的问题,本文通过网页数据缓存和 DNS缓存两个方面进行缓存效率的提升。通过设计一个网页数据缓存管理模型来降低爬虫系统在网页数据缓存时内存申请释放的时间消耗,从而提升爬虫对于网页数据缓存的效率。该网页数据缓存管理模型通过在线程私有内存池的基础上增加一个全局管理线程来平衡各个线程可用内存节点,从而减少向操作系统申请释放内存的次数,提升内存分配释放效率,从而提升爬虫效率。设计一个基于三层哈希的 DNS预解析缓存算法来降低爬虫在进行域名解析时的时间消耗,该算法通过对域名进行DNS预解析,同时将解析后的域名IP对存入三层哈希缓存结构,从而使爬虫系统不必每次都向域名服务器请求IP,通过对DNS数据进行缓存,降低了DNS解析的时间消耗,提升了爬虫的性能。最后,通过实验验证,这两种方法能够提高业务数据缓存效率。
其他文献
多态的概念已被广泛地应用于工程、可靠性分析、面向对象程序设计、神经网络等多个领域中。本文在科学计算辅助建模领域引入多态的概念,用来表述复杂模型由于模型精度、计算
近年来,随着移动通信技术的发展和用户需求的增多,针对移动终端数据的空中下载技术成为了国内外研究的一个热点。空中下载技术是一种通过移动通信的空中接口对移动终端内存及
  本文针对4R树的上述局限,在深入分析时态变量语义的基础上,提出了4R树的改进模型——扩充的4R树双时态索引技术(Extended4R-trees,E4R树),这种扩充是非平凡的,涉及到模型设计
近年来,随着无线通信和全球定位系统(Global Positioning System, GPS)定位技术的发展,移动环境下的查询技术研究已经成为移动数据库领域的热点。而其中的移动对象K近邻查询
关联规则在商业中的广泛应用使得它成为数据挖掘中最活越的研究方向之一。然而,在传统的基于支持度的关联规则挖掘框架中,数据之间真正的关联可能会未被发现,与此同时可能还
雇员班次安排问题(MinimumShiftDesignProblem-MSD)是劳动力资源计划问题的核心,是提高劳动效率的一个关键。它的应用领域非常广泛,其研究成果可以广泛应用于大型公司、大型商
  所谓的VPN技术是指利用隧道技术和加密技术,在公共网络上构建虚拟专用网络的技术。本文首先分析和比较了各种VPN技术的优缺点。针对传统SSLVPN模型的缺点,结合对虚拟专用网
  本文在深入研究了传统的色彩校正技术之后,提出了基于人工神经网络的色彩校正模型,对该模型进行实现,并且在校正模型的基础上,设计了通过打印输出对印刷输出进行模拟打样、显
随着J2EE规范的出现,Java语言的功能及其开发工具得到极大的扩充、丰富和发展,并在复杂的、多层次的、构件化的以及分布式的电子商务和企业级应用中发挥重要的支柱作用。论文
实时IP传真通信是IP技术与传统传真通信技术相融合的产物,具有通信实时性强、接近传统传真的操作方式、资费低等诸多优点,应用前景广阔。目前,IP传真功能通常在IP语音网关内