一种基于Hadoop的分布式网络爬虫的研究与设计

被引量 : 7次 | 上传用户:flybear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展,尤其是近些年来互联网和移动互联网的发展,深刻的改变着我们生活的世界。信息技术产业以及信息技术与传统产业的结合已经成为世界经济的重要组成部分。而当前随着网络将越来越多事物连接起来,人们需要面对的信息量也激增了,因此一个新的课题也就产生了——如何找到有价值的信息。对于个体用户面对互联网的情况,这一问题的答案就是搜索引擎。而对于想获得海量数据当中隐藏的价值的企业,这一问题的答案就是数据分析与数据挖掘。对于这些解决办法而言,信息处理的第一步就是获取互联网上的海量的信息。本论文的研究课题就是从互联网上获取海量信息的网络爬虫技术,由于当前单机平台已经难以应对互联网大数据量的挑战,本课题借助分布式平台来作为应用的底层平台。本论文的主要研究工作包括以下几个方面:网络爬虫研究的背景技术与相关理论。互联网信息的爆发式增长,衍生出了搜索引擎技术,而网络爬虫是搜索引擎的重要组成部分。本论文研究分析了搜索引擎的基本工作原理与关键模块的技术细节,主要是建立搜索索引和搜索结果排序的技术原理。在这些研究的基础上,本论文对网络爬虫的原理进行了分析。对于网络爬虫涉及的一些关键的技术给出了详细的介绍与分析。本论文研究了云计算发展状况与Hadoop分布式平台的主要构成和关键技术,并介绍了云计算的产生与发展现状,详细研究了云计算的关键技术特征。Hadoop分布式平台的主要构成包括HDFS、 MapReduce编程模型和HBase分布式数据库。本论文对于他们的技术细节进行了分析,并着重分析了Hadoop平台作为分布式开发框架的主要特征和优势。本课题完成了分布式网络爬虫的设计实现、部署与测试。在前述技术研究的基础上,本课题研究并设计了基于Hadoop分布式平台的网络爬虫,详细分析了各关键模块的主要功能,以及在MapReduce编程框架下的实现。完成了该网络爬虫在20台服务器组成的小型服务器集群上的部署与测试。最后,本论文通过实验证明这套设计方案切实可行,该设计是使用开源分布式系统的很好地尝试。本课题对网络爬虫技术和分布式系统的研究很有参考价值。
其他文献
研究存货质押贷款中,当信贷人对借款人质押前违约概率信息不对称时,考虑借款人信号发送行为时对借款人的甄别。运用信息经济学,在Danny Ben-shahar抵押贷款模型基础上,考虑质
宋词作为一种雅俗共赏的文学样式,本身具有较强的可歌性特点。在千百年的传播过程中,宋词与其他文学艺术形式发生着奇妙的共生现象。尤其是在当今大众传播环境下,受众文化水
期刊
“信息素养”已成为教育中的一个热门话题。各个国家对此做出了积极的反应并制定了相应的标准,尤以信息技术发达的美国为代表。美国在制定中学生信息素养标准之后,续而又在20
许多考古学家认为,世界上最终会出现一种统一的考古学.我认为这是一种过于简单的看法,考古学的许多方法在过去一个世纪中已在世界范围内被广泛采用.但是有许多方面的差异仍然
近年来,我国高速公路大型车比重逐渐增加,货车不断向大型化、重型化方向发展,对车流运行和安全的不利影响越来越明显。我国多数高速公路的现状是,交通量并未达到预期的服务流
制陶作坊是陶器生产活动发生的地点,最可能保存着当时陶器生产活动的相关证据。同时,在世界范围内的考古发掘中,考古学家已经大量发现了这些古代陶器生产活动的直接证据,为制
在分析远程学习者时间管理问题的基础上,初探了时间管理支持对远程学习者的重要意义,并提出时间管理支持应包含的主要内容,即进行时间管理行为训练;信息技术能力培养;建立在
目前,小学低年级写字教学存在一些亟需解决的问题,针对这些问题,小学低年级写字教学应从以下几方面进行改进:写字姿势要抓早抓严,常抓不懈;充分发挥教师的示范作用;运用描红
本世纪以来,由于中央政府确立房地产业为支柱产业,地方政府因分税制的改革而对于“土地财政”依赖加剧,致使国内外的大量投资涌入房地产业,土地出让金也不断升高,最终导致了