基于分布式的搜索引擎技术研究与设计

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xinshou2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、互联网技术的快速发展,网络上的信息几乎是呈现爆炸式增长,这对传统的搜索引擎技术带来不小的挑战。面对海量数据的处理和存储,人们对搜索引擎的需求,不仅仅局限于能够尽可能地获取准确的检索结果,还需其具有更好的时效性,更高的可扩展性,更低的故障率。大数据时代,对数据的处理能力要求越来越高,随着分布式计算技术的不断发展,以及云计算的不断普及,基于分布式的搜索引擎无疑会成为未来发展的趋势。本论文针对基于分布式的搜索引擎,论述了国内外对搜索引擎的研究现状以及未来发展的趋势,分析了搜索引擎的工作原理,详细介绍了分布式搜索引擎涉及的相关理论技术。对主要的几种分布式搜索引擎方案进行对比分析,研究改进措施,提出了基于Hadoop的分布式搜索引擎技术方案。根据搜索引擎本身特点,将搜索引擎分为爬行、索引、检索三个子模块,对系统的每个子模块进行详细设计并实现,将Hadoop的Map/Reduce模型和分布式文件系统HDFS应用在整个搜索引擎中。在原有PageRank算法基础,进行优化,添加用户访问反馈影响因子,提出一种基于用户访问反馈的PageRank算法,来对网页进行评分。利用轻量级Web应用框架SpringMVC对检索子模块进行构建,视图层采用新一代Java模板引擎jetbrick-template替代Jsp,提高了页面加载速度,提升搜索引擎的时效性。最后,对实验环境进行介绍和部署,搭建分布式搜索引擎系统,对实现的搜索引擎系统从功能、可靠性、可扩展性几个方面分别进行了测试。对实验结果进行对比和分析,论证了基于Hadoop的分布式搜索引擎技术方案的可行性。
其他文献
针对动车组走行部轴箱振动信号非平稳、非线性且背景噪声频率分布范围广的复杂特性,设计了改进的希尔伯特-黄变换算法(Hilbert-Huang Transform,HHT),综合利用了HHT方法有效
<正>鉴于石油化工行业中装置安全、平稳、高效运行的极端重要性,近年来应用于过程监控中的一些现代在线测量技术越来越多,例如:Raman、核磁、激光、近红外、声发射、静电、γ
目的观察分析社区护理干预对冠状动脉粥样硬化性心脏病患者生活方式的影响。方法我院2018年1月-2018年12月收治的100例冠状动脉粥样硬化性心脏病患者为本次研究对象,按照是否
目的阐述基层医院开展55例体外循环下心脏外科手术的体会。方法选取55例患者作为样本,均行体外循环下心脏外科手术治疗疾病,观察治疗效果。结果55例患者手术成功率100%、死亡
以5A分子筛为原料,Ce(NO3)3&#183;6H2O为改性试剂,通过一步浸渍法并结合干燥、焙烧与研磨过程,制备CeO2/5A分子筛吸附剂,研究了5A分子筛在改性前后及不同温度下对汞的吸附性能,
在全球金融体系中,美国占据举足轻重的位置,其监管政策走向一直为世界广泛关注。在竞选总统之初,特朗普就明确提出了"金融去监管"的口号,主张废除2010年出台的《多德-弗兰克