论文部分内容阅读
随着Internet技术的发展,人类已经步入信息时代,网上庞大的数字化信息与人们获取所需信息能力之间的矛盾日益突出,怎样快速准确地检索相关信息已经成为当今信息领域的研究热点。到目前为止,国内外研究组织和公司已经提出了多种信息检索模型并研发出了相应的搜索引擎,这些搜索引擎对于要在网络上获取相关知识的用户起到了一定的导航的作用,但是同时也有不少局限性:返回大量的垃圾信息,重要信息丢失等。本文首先从研究文本信息检索模型入手,阐述了传统的信息检索模型的基本原理及其算法思想,然后着重介绍了有关领域本体的知识以及在领域本体参照下三种语义相似度的计算模型:基于距离的语义相似度计算模型、基于内容的语义相似度计算模型以及基于属性的语义相似度计算模型。得知这三种语义相似度的计算模型分别从三个不同的分析角度来量化概念之间的语义相似度:(1)基于距离的语义相似度计算模型简单、直观,但它非常依赖预先建立好的概念层次网络,网络的结构直接影响到语义相似度的计算;(2)基于内容的语义相似度计算模型在理论上更有说服力,因为在计算概念之间语义相似度的时候,充分利用了信息理论和概率统计理论的相关知识,但是这种方法不能更细致的区分层次网络中各个概念之间语义相似度的值;(3)基于属性的语义相似度计算模型可以很好的模拟人们平时对现实世界中事物之间的认识和辨别,但是要求对客观事物的每一个属性进行详细和全面的描述。因此,针对这三种计算模型的优缺点和领域本体所特有的性质,提出了一种改进的基于领域本体的语义相似度计算模型,该模型能够比较准确地反映概念之间的语义关系,为概念之间的语义关系提供一种有效的量化。论文在上述基础上,通过对基于统计的信息检索模型和基于本体的信息检索模型进行分析比较,得知这两种模型在某种程度上互补:(1)基于统计的信息检索模型强调关键字的统计信息,然而忽略了关键字之间的语义信息;(2)基于本体的信息检索模型强调关键字之间的语义信息,然而忽略了关键字的统计信息。结合两种信息检索模型各自的优点提出了一种混合的信息检索模型。通过该模型构建了一种新的信息检索系统的原型,并对该原型系统的几个重要的模块的功能及原理进行了说明。最后,实验主要采用JSP作开发技术构建了基于C/S模式的文本信息检索系统,通过protégée开发《数据结构》这门课程前三章的领域本体,使用Apache Tomcat 5.0作为Web服务器,采用Microsoft Office XP Access Professional作为数据库构建的实验环境。实验结果证明该原型用于信息检索中,其查全率和查准率方面较基于统计的信息检索模型和基于本体的信息检索模型有了一定的改进。