论文部分内容阅读
随着计算机技术、互联网技术的快速发展,网络上的信息几乎是呈现爆炸式增长,这对传统的搜索引擎技术带来不小的挑战。面对海量数据的处理和存储,人们对搜索引擎的需求,不仅仅局限于能够尽可能地获取准确的检索结果,还需其具有更好的时效性,更高的可扩展性,更低的故障率。大数据时代,对数据的处理能力要求越来越高,随着分布式计算技术的不断发展,以及云计算的不断普及,基于分布式的搜索引擎无疑会成为未来发展的趋势。本论文针对基于分布式的搜索引擎,论述了国内外对搜索引擎的研究现状以及未来发展的趋势,分析了搜索引擎的工作原理,详细介绍了分布式搜索引擎涉及的相关理论技术。对主要的几种分布式搜索引擎方案进行对比分析,研究改进措施,提出了基于Hadoop的分布式搜索引擎技术方案。根据搜索引擎本身特点,将搜索引擎分为爬行、索引、检索三个子模块,对系统的每个子模块进行详细设计并实现,将Hadoop的Map/Reduce模型和分布式文件系统HDFS应用在整个搜索引擎中。在原有PageRank算法基础,进行优化,添加用户访问反馈影响因子,提出一种基于用户访问反馈的PageRank算法,来对网页进行评分。利用轻量级Web应用框架SpringMVC对检索子模块进行构建,视图层采用新一代Java模板引擎jetbrick-template替代Jsp,提高了页面加载速度,提升搜索引擎的时效性。最后,对实验环境进行介绍和部署,搭建分布式搜索引擎系统,对实现的搜索引擎系统从功能、可靠性、可扩展性几个方面分别进行了测试。对实验结果进行对比和分析,论证了基于Hadoop的分布式搜索引擎技术方案的可行性。