论文部分内容阅读
信息技术的飞速发展,尤其是近些年来互联网和移动互联网的发展,深刻的改变着我们生活的世界。信息技术产业以及信息技术与传统产业的结合已经成为世界经济的重要组成部分。而当前随着网络将越来越多事物连接起来,人们需要面对的信息量也激增了,因此一个新的课题也就产生了——如何找到有价值的信息。对于个体用户面对互联网的情况,这一问题的答案就是搜索引擎。而对于想获得海量数据当中隐藏的价值的企业,这一问题的答案就是数据分析与数据挖掘。对于这些解决办法而言,信息处理的第一步就是获取互联网上的海量的信息。本论文的研究课题就是从互联网上获取海量信息的网络爬虫技术,由于当前单机平台已经难以应对互联网大数据量的挑战,本课题借助分布式平台来作为应用的底层平台。本论文的主要研究工作包括以下几个方面:网络爬虫研究的背景技术与相关理论。互联网信息的爆发式增长,衍生出了搜索引擎技术,而网络爬虫是搜索引擎的重要组成部分。本论文研究分析了搜索引擎的基本工作原理与关键模块的技术细节,主要是建立搜索索引和搜索结果排序的技术原理。在这些研究的基础上,本论文对网络爬虫的原理进行了分析。对于网络爬虫涉及的一些关键的技术给出了详细的介绍与分析。本论文研究了云计算发展状况与Hadoop分布式平台的主要构成和关键技术,并介绍了云计算的产生与发展现状,详细研究了云计算的关键技术特征。Hadoop分布式平台的主要构成包括HDFS、 MapReduce编程模型和HBase分布式数据库。本论文对于他们的技术细节进行了分析,并着重分析了Hadoop平台作为分布式开发框架的主要特征和优势。本课题完成了分布式网络爬虫的设计实现、部署与测试。在前述技术研究的基础上,本课题研究并设计了基于Hadoop分布式平台的网络爬虫,详细分析了各关键模块的主要功能,以及在MapReduce编程框架下的实现。完成了该网络爬虫在20台服务器组成的小型服务器集群上的部署与测试。最后,本论文通过实验证明这套设计方案切实可行,该设计是使用开源分布式系统的很好地尝试。本课题对网络爬虫技术和分布式系统的研究很有参考价值。