论文部分内容阅读
随着社会信息化的发展,人们已迈入了信息时代,并朝着知识时代迈进。在这一时代背景下,信息对企业或组织的作用越来越突出,成为企业或组织存在和发展的关键。然而由于企业或组织缺乏对其自身所拥有的信息资源的有效管理,致使其不能及时获得所需要的信息。这是由于当前企业或组织所采用的数据库系统方式和大型搜索引擎的站内搜索提供的全文检索功能来实现对其所拥有的数据资源进行检索的方法都存在一定的缺陷:前者只适用于信息量较小的情况,随着信息的累积,使用数据库系统中的类似like“%keyword”查询,其全文检索性能将急剧下降;而后着也存在着索引效率低、更新慢、数据不准确和无法控制输出格式等问题。针对以上问题,本文提出了一种基于XML的全文检索方法以实现对企业或组织的信息资源的有效管理。具体而言,本文的工作主要包括以下几个方面:(1)对当前两种主要的全文检索技术:字索引与检索技术、词索引与检索技术进行了深入的分析研究,以为基于XML的全文检索方法的实现提供依据和支持。(2)对XML相关技术进行了深入的研究。充分考虑XML置标添加的灵活性以及置标本身所蕴涵的语义信息,从索引机制与索引结构入手,在建立索引时,不仅考虑如何从文档中找到相关信息,而且考虑了信息的结构和粒度问题,实现内容+结构的信息检索。利用XML作为一个通用数据接口,也即将其他的数据资源(如数据库资源、PDF格式的文件WORD文档等)转换成XML格式的文件,这样可以提高建立索引的速度并能够减小存储的空间。这是因为把搜索到的信息存进单一的XML文档中,相对于每个独立文件,可以减少索引程序进行文件定位和打开关闭文件所需要的时间,这在文档数据量比较大的时候效果特别明显;此外,规范化的存储能避免对所有搜索到的文件都进行单独存储,减少存储空间,提高管理效率。(3)对全文检索系统实现平台Lucenc进行了深入的分析,并针对具体问题,对其进行了改进和优化,如解析模块的改进、索引器和检索器接口参数的优化等。(4)最后,开发实现了基于XML的全文检索的原型系统。整个原型系统包含XML文档解析、分字段全文索引、XML文档查询等几个子模块。模块按功能区分,模块之间通过接口来相互操作,这样使得原型系统是一种松散的系统架构,各个子模块之间的相互依赖性低,有利于以后的修改和升级,易于被其他应用系统整合。总之,本文的研究成果为建立高效、准确、实用的基于XML全文检索系统打下了坚实的基础,为有效管理企业或组织的信息资源提供了方法和手段。