【摘 要】
:
基于NoSQL存储的海量文档全文检索系统是一种结合了分布式全文检索和分布式存储的新型文档管理系统。它提供了文档管理系统升级的一种方案,使文档存储满足海量存储要求,使文
论文部分内容阅读
基于NoSQL存储的海量文档全文检索系统是一种结合了分布式全文检索和分布式存储的新型文档管理系统。它提供了文档管理系统升级的一种方案,使文档存储满足海量存储要求,使文档检索更加准确高效。传统的文档管理系统大多使用文档外部特征作为文档查询关键字,通过这些关键字和文档内容建立关联并保存到关系型数据库,文档内容直接保存到操作系统文件系统中。这种方式一般会造成两个问题,一个是文档都保存在一台服务器上,造成系统存储容量有限,扩展性不好。另一个是使用外部特征搜索文档内容,搜索的准确性很低。为解决这两个问题,本文把业界两种新兴技术NoSQL和分布式全文检索引擎引入到文档管理系统中。MongoDB在NoSQL领域非常有名,在DB Engines的排行榜中己进入前5,在行业中的应用非常普遍。本文分析了MongoDB的特点、功能和适合场景,并重点研究了MongoDB实现分片和复制的原理,为学习分布式存储提供了很好的案例。ElasticSearch是一个基于Lucene构建的开源引擎,包涵有分布式、RESTful等功能。虽然是一个新兴的分布式搜索引擎,但在性能、扩展性、成熟度多方面都表现很优秀。本文重点深入ElasticSearch源码,分析了其实现分布式搜索的原理。本文主要研究工作是基于NoSQL存储的海量文档全文检索系统的研究与实现。根据功能需要,本文设计了基于OSGi的模块化插件结构的系统架构,并把业务功能分为文件处理、文本提取、全文索引和查询四个主要模块。系统应用插件结构保证了系统的扩展性,能够支持新出现的文档格式;应用Mongo-DB解决了文档海量存储的问题;应用ElasticSearch搜索引擎解决了全文检索准确性和查询效率问题。
其他文献
胰腺癌是一种起病隐匿、发展迅速、治疗效果和预后都极差的恶性肿瘤。数十年来随着外科手术技术不断发展,使处于围手术期的胰腺癌患者并发症发生率及死亡率下降显著,但其远期
民俗作为一种文化事项,凝聚着千百年来人民群众在生产、生活中的智慧。我国是四大文明古国之一,有着悠久的历史、渊源的文化,在五千年的历史长河中,给我们留下了一座巨大的文
大学师生关系既受到社会关系制约,也受到教育规律的制约。随着社会发展和时代的变化,高等教育实现了由精英教育到大众化教育的转变。旧的师生关系依然存在,新的问题和矛盾应
城市生态园作为城市基础设施建设,给城市的整体环境带去了生命力和活力,改善了城市的生态环境、提高了城市的环境质量和人民生活水平。2008年春,太原市开始对东西山进行综合
拱桥在中国有着悠久的历史。拱桥凭借其杰出的布局性能、突出的跨越条件和便捷的施工工序一直是中国桥梁建设工程中的主要桥型之一。下承式拱桥是在传统拱桥构造上改进形成的
目的:探讨御寒汤加减治疗感冒后咳嗽的临床疗效。方法:将符合诊断标准的60例患者随机分为治疗组和对照组各30例。对照组给予口服酮替芬片、多索茶碱片、复方甘草片治疗,治疗
大部门制改革是行政管理体制改革的一项新举措,2008年,我国正式提出并推行大部门制改革。2009年云南省政府机构改革也参照国务院的机构设置,推行了大部门制改革。5年的改革实
国有企业是我国经济发展的重要力量,在我国经济发展中扮演了重要角色。伴随着国有企业的改革,国有企业的治理模式和管理体制得到不断完善;但仍有一些企业的治理不完善和内部控
<正> 现在“医院三化”一词,已成为医院管理科学中的术语。贵刊一九八二年第三期23、25页两处提到:“我们又进行了三化建设,基本上做到了工作制度化、程序化、规格化”;“加
对引种驯化后的黄岗山樱进行3 a观测表明,其开花期为3月中下旬至4月初,单花开放时间5-6 d,单株花期12-15 d;果期为4月中下旬至5月初,单株果期14-16 d,果熟期至落果期可延续5-