论文部分内容阅读
随着互联网的迅速发展,如何从海量信息资源中准确快速地检索到有利用价值的信息,成为了信息检索领域的研究重点。虽然传统的全文检索技术可以快速地完成对海量信息的检索,但是由于其检索时主要依赖于关键词的匹配技术,仅能从字面上完成检索请求与索引的匹配,缺乏对检索请求的语义层面的理解与分析处理能力,其检索结果不是遗漏重要信息,就是包含大量不相关信息。本体对信息资源进行了有效的组织与描述,本体中概念词之间以关系相连,通过其概念与关系的组合可以完成本体的逻辑推理工作。将本体技术引入到全文检索系统中,利用本体的逻辑推理能力,来实现对检索请求的语义支持,可以很大程度上提高传统的全文检索系统的检索准确性和对无用信息的过滤能力。本文在基于本体的语义全文检索系统的研究中做了以下工作:(1)在深入研究本体及其概念语义相似度的基础上,分析总结了目前概念语义相似度计算中存在的问题。提出了一种基于主成分分析(PCA)的综合加权概念语义相似度计算方法,该方法不仅集成了传统的基于语义距离的算法与基于信息内容的算法,而且引入了深度、密度因子和语义重合度来进行综合的分析,并针对综合算法中权值难以确定的问题,引入主成分分析的思想改进权值分配方法。通过实验证明,基于主成分分析的综合加权概念语义相似度计算方法有效改善了概念语义相似度计算的准确性。(2)利用Jena软件包设计并实现了一个通用的对本体描述语言文件的解析应用模型。该模型不仅可以根据本体中的概念及概念间的关系来计算出概念间的语义相似度,而且还支持将概念对及其之间的语义相似度导入到关系型数据库的功能。(3)研究了全文检索的过程、框架和其中的核心技术,并重点分析了Lucene.Net全文检索工具包的体系结构。利用Lucene.Net全文检索工具包和本体相关技术,设计了一个基于本体的语义全文检索模型,并给出了各个模块的详细设计。其中重点针对原系统的查询模块与结果反馈模块中,因缺乏对语义的支持而产生的检索结果准确性不高的问题,引入了本体概念语义相似度来对其进行功能的扩展。(4)设计与实现了基于本体的语义全文检索系统,通过具体的查询实例,证明了该系统在查全率与查准率方面优于传统的全文检索系统。