【摘 要】
:
网络信息化的快速普及,尤其是大数据时代的到来,使得互联网上各种异构的非结构化数据开始出现爆炸式的增长。搜索引擎技术为人们从海量的数据中快速并且有效地检索出有用的信
论文部分内容阅读
网络信息化的快速普及,尤其是大数据时代的到来,使得互联网上各种异构的非结构化数据开始出现爆炸式的增长。搜索引擎技术为人们从海量的数据中快速并且有效地检索出有用的信息提供了良好的解决方案。全文检索是搜索引擎中的主要技术,它主要包含两个步骤—索引建立和索引查询。在云存储平台与分布式计算技术的快速推动下,分布式全文检索在解决集中式检索中的各种问题的同时,它开始成为现代信息检索中的一项重要技术。本文首先介绍了分布式全文检索的研究背景和发展现状,之后分别对分布式全文索引的建立、分布式全文索引的划分组织、分布式索引查询等过程中涉及到的关键技术进行了阐述和分析。在这基础之上,本文针对分布式全文检索中的几个关键问题进行了研究,提出了一些解决方法,并且通过相关的实验来验证方法的有效性。本文的研究内容主要从以下几个方面展开:一、首先分析了单机集中式索引构建方式的不足,提出了一种应用分布式计算框架MapReduce进行并行索引构建的方法,并且在全文检索框架Lucene上实现了分布式索引的建立。最终通过4台机器组成的Hadoop集群来将索引的建立效率提高了一倍,验证了上述方法的有效性。二、分布式索引的划分组织方式决定了整个分布式系统的负载均衡。本文首先分析并且对比了目前两种主流的索引分割组织方案,即文档分割与词表分割。在阅读相关文献的基础上,提出了一种文本聚类方法下的索引分割组织方法。三、由于分布式系统中索引库的数量较多,在进行检索时需要对索引库进行集合选择。目前有很多比较成熟的集合选择策略,如CORI、CRCS等,但普遍缺乏对语义的支持。本文提出了一种基于词语相似度的分布式检索集合选择策略,最后通过验证了它具有良好的查全率。
其他文献
为深入了解深圳市机动车排放PM2.5化学特性,选取深圳具有代表性的城市隧道进行机动车排放因子测试。通过连续8 d的监测,获得隧道内PM2.5质量、EC、OC的浓度、交通参数、气象
目的:观察推拿疗法对亚急性衰老家兔血清中谷胱甘肽过氧化物酶( GSH-Px)、乳酸脱氢酶( LDH)表达水平的影响及抗衰老作用效果和机制。方法无特定病原体( SPF)级家兔24只,雌雄各半,随机分
论文以黄土隧道为工程对象,通过现场调查、土工试验、统计分析、数值计算等方法,对深埋黄土的工程特性、围岩分级、隧道开挖施工过程中围岩性状进行了分析研究。论文对深埋黄
乡镇档案是乡镇工作开展的基础,是乡镇建设的真实反映,做好乡镇档案管理工作格外重要.随着社会主义新农村建设的不断推进,乡镇档案管理工作也出现了一些问题,这些问题严重影
党的十九大报告指出,我国经济已由高速增长阶段转向高质量发展阶段,在此背景下,年轻人面临的职场压力也是空前巨大的。因此,隔代抚养是社会转型期的必然产物,同时也是社会保
实践教学是实现“中央电大人才培养模式改革和开放教育试点”项目人才培养目标的重要手段 ,实践教学基地则是保证实践教学质量效果的重要条件。加强和完善实践教学基地的建设
【正】 18世纪末至19世纪中叶,西方国家陆续完成了工业革命的进程,他们从自由资本主义发展为垄断资本主义,使其生产体系结构和经济结构实现了一次飞跃,走上了富裕之路。他们
目的总结和分析澳大利亚医疗卫生绩效评价体系和各地方卫生署绩效信息报告的经验和做法,提出建立我国客观、科学、有效的医疗卫生绩效评价体系的相关建议,加强我国卫生行政管
中国改革开放40年的文论史是文学的立场、观念、思想和理论与国家意识形态在某种共同进程方向上的动态调适史。新时期初年的文学主体论因其显示着文学和文论的根本冲动及诉求
内部控制一直以来都是高等职业院校管理过程中的重要环节,是管理好一所高等职业院校的关键所在。目前,SY职业技术学院已建立相对完善的内部控制体系,但仍存在着很多问题,所以