分布式网络爬虫技术研究与实现

被引量 : 19次 | 上传用户：yangzzhenhua

【摘要】

：

互联网的爆炸性发展使得其规模由1993年的数千个网页发展为现在的数十亿个网页,并且这个数字还在疯狂膨胀中。随着互联网的规模迅速增长,其相关的服务和信息量也随之快速增长

【作者】

：

王毅桐

【发表日期】

：

2012年01期

【关键词】

：

网络爬虫 MapReduce Python URL去重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的爆炸性发展使得其规模由1993年的数千个网页发展为现在的数十亿个网页,并且这个数字还在疯狂膨胀中。随着互联网的规模迅速增长,其相关的服务和信息量也随之快速增长。在这些信息得到人们广泛应用的同时,专门负责互联网信息收集工作的网络爬虫也面临着巨大的挑战。目前,国内外的大型互联网公司、相关研究机构(如：Google、百度等)已经给出了一些较为成熟的解决方案,有些也已投入使用,但是这些方案大都只能为一般用户提供一种不可定制的搜索服务,而且很多公司将这些网络爬虫的技术列为商业机密,并未公开,已经无法满足广大用户日益增长的各种要求；互联网如此庞大、错综复杂就算是Google、百度这样的搜索巨头也无法完整搜集完所有的网页,更不用说普通用户。本文着重研究中小型规模的分布式爬虫,设计并实现了一个基于MapReduce分布式计算模型的分布式网络爬虫。综合起来本文的主要工作如下：首先,本文介绍了网络爬虫中的相关技术和当前流行的Map/Reduce分和式计算模型。随后在MapReduce分布式计算模型的基础上设计了由多台PC构成的分布式网络爬虫系统-DWCS。其中通用的crawler模块负责对网页的抓取,并提取URL; master模块负责对URL进行去重等处理,并分配给各个crawler模块。然后,在上述的基础上,利用Python与Mincemeat.py分布式计算模块实现了该分布式爬虫。最后,本文对DWCS系统进行了测试,对测试结果进行了分析,对目前的工作做了总结,找出了不足,并对日后的工作做了展望和部署。

其他文献

乌兰察布市森林草原防火工作中存在的问题及对策浅析

文章通过对乌兰察布市森林草原防火工作存在问题的分析,提出了相应的对策和措施.

期刊

乌兰察布市森林草原防火对策

在人居环境中支撑体住宅（CSI住宅）的适应性研究

随着我国城市化的脚步逐渐加快,在城市住宅建设数量为满足人们对住宅的需求不断增加,与此同时不少住宅还未到使用年限就被拆除进行重建。主要一方面是由于物理上建筑使用的老

学位

支撑体建筑CSI住宅适应性同质异构

河图五行模式与生克五行模式的比较性研究

一、目的五行学说是中医理论中重要的理论之一,中医目前对五行学说的论述多集中于五行的生克等方面,而对于另一种更为重要的五行学说几乎少有谈及。因此将河五图五行模式与生

学位

河图五行模式与生克五行模式

浅谈北方渔猎民族传统民歌的共性特征

黑龙江流域世代生息繁衍的渔猎民族，在长期捕鱼、狩猎的生活过程中，形成了独具特色的渔猎文化。这些民族的传统民歌既保留着个性鲜明的艺术特色，也保留着同出一宗的共性特征。本

期刊

渔猎民族传统民歌共性特征

妙香宝刹——云南大理崇圣寺

期刊

云南大理敬老节

车用柴油洁净度的要求、检测方法及影响因素

随着我国机动车产销量和保有量的快速增长，能源大量消耗，节能已成为人们关注的焦点。柴油车以其较好的动力性、耐久性、燃油经济性等受到了青睐，排放水平达到欧盟机动车污染物排

期刊

洁净度世界燃油规范检测方法

柴油中总污染物含量测定的探析

本实验探讨了车用柴油中总污染物含量的测定方法和快速判别方法,结果表明：在真空管上安装一个阀门可有效的避免损坏滤膜;利用检测柴油颗粒度的方法可快速识别总污染物含量是否

期刊

车用柴油总污染物含量颗粒度

CH集团领导力培训课程体系再造研究

培训是企业提高员工能力素质的一项重要的人力资源开发方式，培训课程是培训体系的核心部分之一。对于正处于新战略加快实施、企业处于组织变革阶段的CH集团，如何快速有效地提高

学位

培训领导力胜任素质培训管理

东营便民服务信息平台的设计与实现

便民信息服务平台，是随着生活水平逐步提高，以及家庭小型化、人口老龄化和生活节奏的加快，居民对家务劳动服务需求日益增加发展起来的。便民信息服务平台具体应用主要是为供需提

学位

便民服务平台呼叫中心短信集成客户服务系统信息处理

3300 VPlanar IGBT的仿真分析与设计

绝缘栅双极型晶体管(IGBT)是一种应用成熟、应用领域宽广的新型半导体功率器件。国外主要IGBT厂商的技术已经过了六代产品的更迭,而目前国内IGBT的研发与制作才处于刚起步阶

学位

IGBT工艺流程元胞结构终端

分布式网络爬虫技术研究与实现

其他学术论文