基于XML的全文检索方法及原型系统实现研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：rmprinthecb

【摘要】

：

随着社会信息化的发展,人们已迈入了信息时代,并朝着知识时代迈进。在这一时代背景下,信息对企业或组织的作用越来越突出,成为企业或组织存在和发展的关键。然而由于企业或组

【作者】

：

王忠义

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2009年期

【关键词】

：

XML Lucene ICTCLAS 全文检索系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化的发展,人们已迈入了信息时代,并朝着知识时代迈进。在这一时代背景下,信息对企业或组织的作用越来越突出,成为企业或组织存在和发展的关键。然而由于企业或组织缺乏对其自身所拥有的信息资源的有效管理,致使其不能及时获得所需要的信息。这是由于当前企业或组织所采用的数据库系统方式和大型搜索引擎的站内搜索提供的全文检索功能来实现对其所拥有的数据资源进行检索的方法都存在一定的缺陷:前者只适用于信息量较小的情况,随着信息的累积,使用数据库系统中的类似like“%keyword”查询,其全文检索性能将急剧下降;而后着也存在着索引效率低、更新慢、数据不准确和无法控制输出格式等问题。针对以上问题,本文提出了一种基于XML的全文检索方法以实现对企业或组织的信息资源的有效管理。具体而言,本文的工作主要包括以下几个方面:(1)对当前两种主要的全文检索技术:字索引与检索技术、词索引与检索技术进行了深入的分析研究,以为基于XML的全文检索方法的实现提供依据和支持。(2)对XML相关技术进行了深入的研究。充分考虑XML置标添加的灵活性以及置标本身所蕴涵的语义信息,从索引机制与索引结构入手,在建立索引时,不仅考虑如何从文档中找到相关信息,而且考虑了信息的结构和粒度问题,实现内容+结构的信息检索。利用XML作为一个通用数据接口,也即将其他的数据资源(如数据库资源、PDF格式的文件WORD文档等)转换成XML格式的文件,这样可以提高建立索引的速度并能够减小存储的空间。这是因为把搜索到的信息存进单一的XML文档中,相对于每个独立文件,可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在文档数据量比较大的时候效果特别明显;此外,规范化的存储能避免对所有搜索到的文件都进行单独存储,减少存储空间,提高管理效率。(3)对全文检索系统实现平台Lucenc进行了深入的分析,并针对具体问题,对其进行了改进和优化,如解析模块的改进、索引器和检索器接口参数的优化等。(4)最后,开发实现了基于XML的全文检索的原型系统。整个原型系统包含XML文档解析、分字段全文索引、XML文档查询等几个子模块。模块按功能区分,模块之间通过接口来相互操作,这样使得原型系统是一种松散的系统架构,各个子模块之间的相互依赖性低,有利于以后的修改和升级,易于被其他应用系统整合。总之,本文的研究成果为建立高效、准确、实用的基于XML全文检索系统打下了坚实的基础,为有效管理企业或组织的信息资源提供了方法和手段。

其他文献

高校图书馆宣传推广体系研究

高校图书馆宣传推广的目的不仅仅是为了提高图书馆的知晓度、美誉度,其最终的目标主要有两点:一是要改变读者对图书馆的态度和看法,影响读者利用图书馆的行为,让他们充分利用

学位

基于机器学习的高校图书馆用户偏好检索系统研究

[目的/意义]针对大数据环境下高校图书馆检索系统的信息超载问题,提出一种机器学习方法,为用户提供个性化的偏好检索服务。[方法/过程]通过提取用户检索行为大数据中的用户特

期刊

机器学习高校图书馆用户偏好偏好检索

基于地理坐标的微博事件检测与分析研究

随着计算机网络和web2.0技术的深入发展和应用,微博改变了传统的社交网络形式,并迅速在社会上流行起来。用户不仅可以在微博平台上及时接触热点社会信息,并且可以通过对微博

学位

微博事件检测可视化分析地理坐标分析信息检索

基于XML的全文检索方法及原型系统实现研究

其他学术论文