分布式网络爬虫技术研究与实现

被引量 : 19次 | 上传用户:yangzzhenhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的爆炸性发展使得其规模由1993年的数千个网页发展为现在的数十亿个网页,并且这个数字还在疯狂膨胀中。随着互联网的规模迅速增长,其相关的服务和信息量也随之快速增长。在这些信息得到人们广泛应用的同时,专门负责互联网信息收集工作的网络爬虫也面临着巨大的挑战。目前,国内外的大型互联网公司、相关研究机构(如:Google、百度等)已经给出了一些较为成熟的解决方案,有些也已投入使用,但是这些方案大都只能为一般用户提供一种不可定制的搜索服务,而且很多公司将这些网络爬虫的技术列为商业机密,并未公开,已经无法满足广大用户日益增长的各种要求;互联网如此庞大、错综复杂就算是Google、百度这样的搜索巨头也无法完整搜集完所有的网页,更不用说普通用户。本文着重研究中小型规模的分布式爬虫,设计并实现了一个基于MapReduce分布式计算模型的分布式网络爬虫。综合起来本文的主要工作如下:首先,本文介绍了网络爬虫中的相关技术和当前流行的Map/Reduce分和式计算模型。随后在MapReduce分布式计算模型的基础上设计了由多台PC构成的分布式网络爬虫系统-DWCS。其中通用的crawler模块负责对网页的抓取,并提取URL; master模块负责对URL进行去重等处理,并分配给各个crawler模块。然后,在上述的基础上,利用Python与Mincemeat.py分布式计算模块实现了该分布式爬虫。最后,本文对DWCS系统进行了测试,对测试结果进行了分析,对目前的工作做了总结,找出了不足,并对日后的工作做了展望和部署。
其他文献
文章通过对乌兰察布市森林草原防火工作存在问题的分析,提出了相应的对策和措施.
随着我国城市化的脚步逐渐加快,在城市住宅建设数量为满足人们对住宅的需求不断增加,与此同时不少住宅还未到使用年限就被拆除进行重建。主要一方面是由于物理上建筑使用的老
一、目的五行学说是中医理论中重要的理论之一,中医目前对五行学说的论述多集中于五行的生克等方面,而对于另一种更为重要的五行学说几乎少有谈及。因此将河五图五行模式与生
黑龙江流域世代生息繁衍的渔猎民族,在长期捕鱼、狩猎的生活过程中,形成了独具特色的渔猎文化。这些民族的传统民歌既保留着个性鲜明的艺术特色,也保留着同出一宗的共性特征。本
随着我国机动车产销量和保有量的快速增长,能源大量消耗,节能已成为人们关注的焦点。柴油车以其较好的动力性、耐久性、燃油经济性等受到了青睐,排放水平达到欧盟机动车污染物排
本实验探讨了车用柴油中总污染物含量的测定方法和快速判别方法,结果表明:在真空管上安装一个阀门可有效的避免损坏滤膜;利用检测柴油颗粒度的方法可快速识别总污染物含量是否
培训是企业提高员工能力素质的一项重要的人力资源开发方式,培训课程是培训体系的核心部分之一。对于正处于新战略加快实施、企业处于组织变革阶段的CH集团,如何快速有效地提高
便民信息服务平台,是随着生活水平逐步提高,以及家庭小型化、人口老龄化和生活节奏的加快,居民对家务劳动服务需求日益增加发展起来的。便民信息服务平台具体应用主要是为供需提
绝缘栅双极型晶体管(IGBT)是一种应用成熟、应用领域宽广的新型半导体功率器件。国外主要IGBT厂商的技术已经过了六代产品的更迭,而目前国内IGBT的研发与制作才处于刚起步阶