分布式爬虫的动态负载均衡方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jamyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,搜索引擎成为互联网用户查找信息的第一入口,作为搜索引擎核心组件的网络爬虫用于在互联网上采集数据。现在网络信息正以指数级的速度不断膨胀,网页采集的完整性和实时性的难度越来越大,这给爬虫系统带来了巨大的挑战。如何充分地利用计算机的硬件资源和网络带宽高效地采集页面,同时减少由URL判重所带来的大量通信开销,是分布式爬虫系统研究的核心问题。针对这个问题,本文以提高分布式爬虫系统的性能为核心,进行了以下研究:深入研究了分布式系统优缺点、分布式系统的任务调度、网络爬虫工作原理和爬行策略的基础上,结合网络爬虫自身特点、互联网结构特点和站点页面间的相似性,提出了基于在线反馈的站点规模动态预测算法。站点规模动态预测算法首先对站点规模进行分类,然后根据互联网结构的疏密性和爬虫的爬行原理,提出了站点增长比的概念,在爬虫爬行的过程中,在线采集计算增长比的信息,通过计算出的增长比的反馈,对站点规模进行逐步预测,并基于采集的数据进行了算法模型的训练和验证;将基于在线反馈的站点规模动态预测算法融入到分布式爬虫系统中,可根据预测出的站点规模,减少URL判重所带来的大量通信开销。针对站点规模计算出爬行器所承载的任务负荷量,通过监视器定时收集爬行器自身负荷当量,基于以上两点计算爬行器间的负载系数,并以此为依据进行任务调度,以达到负载均衡的效果;结合以上理论基础和研究成果,本文设计并开发了基于站点规模的动态任务分割算法的分布式爬虫系统,该分布式爬虫系统能很好地处理新增爬行器时的负载均衡情况和爬行器出现故障时的任务快速恢复情况,具有很好的动态负载均衡效果、鲁棒性和扩展性。
其他文献
随着计算机技术和网络技术的发展对存储系统提出了越来越高的要求,存储容量、I/O速度、系统可用性、扩展性和安全性等方面都面临极大的挑战。面向对象存储系统(Object Based
随着移动通信技术的不断发展,尤其是第三代移动通信技术的快速发展,智能手机逐步发展成为具有强大功能的新一代移动终端。建立简单高效的应用平台系统对于组织和管理智能手机软
心脏病长期以来都是人类健康的头号杀手。心电图(ECG)提供了心脏功能活动的重要信息,能够帮助诊断一些常见的心脏疾病。传统的ECG自动识别算法通过检测QRS波群、P波、T波等波
近年来,随着社交网络、电子商务网站的兴起,人们的消费习惯正在慢慢地发生变化,越来越多的人开始通过互联网获取推荐的服务信息并线下消费体验服务,为了满足用户日益增长个性化消
学位
数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机
通过工作流管理系统对工作流程的管理和控制,可以实现企业经营过程的计算机化,为企业实现更好的经营目标提供了一个重要手段。但传统的工作流管理系统只专注于工作流程的运转
当前,SUN公司提出的J2EE已经日渐成为企业Web应用的开发标准。J2EE以组件技术为基础,具有N层体系结构,为非常广泛的领域构建了一个完整的、面向对象的、易维护可扩展的应用架
在磁盘驱动器中,定位和精确跟踪磁道对读写磁盘数据至关重要。当前硬盘工业的发展趋向于小型化和微型化。随着记录密度的不断增长,需要伺服系统能可靠的跟踪磁道。精确的寻道
通信系统中的一个固有问题是干扰。作为4G的代表技术之一的LTE-Advanced对资源利用率的要求更高,希望能够使用接近于1的频率复用因子,因此小区间干扰问题更需要得到解决。异