文本信息检索模型研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yanhe100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,人类已经步入信息时代,网上庞大的数字化信息与人们获取所需信息能力之间的矛盾日益突出,怎样快速准确地检索相关信息已经成为当今信息领域的研究热点。到目前为止,国内外研究组织和公司已经提出了多种信息检索模型并研发出了相应的搜索引擎,这些搜索引擎对于要在网络上获取相关知识的用户起到了一定的导航的作用,但是同时也有不少局限性:返回大量的垃圾信息,重要信息丢失等。本文首先从研究文本信息检索模型入手,阐述了传统的信息检索模型的基本原理及其算法思想,然后着重介绍了有关领域本体的知识以及在领域本体参照下三种语义相似度的计算模型:基于距离的语义相似度计算模型、基于内容的语义相似度计算模型以及基于属性的语义相似度计算模型。得知这三种语义相似度的计算模型分别从三个不同的分析角度来量化概念之间的语义相似度:(1)基于距离的语义相似度计算模型简单、直观,但它非常依赖预先建立好的概念层次网络,网络的结构直接影响到语义相似度的计算;(2)基于内容的语义相似度计算模型在理论上更有说服力,因为在计算概念之间语义相似度的时候,充分利用了信息理论和概率统计理论的相关知识,但是这种方法不能更细致的区分层次网络中各个概念之间语义相似度的值;(3)基于属性的语义相似度计算模型可以很好的模拟人们平时对现实世界中事物之间的认识和辨别,但是要求对客观事物的每一个属性进行详细和全面的描述。因此,针对这三种计算模型的优缺点和领域本体所特有的性质,提出了一种改进的基于领域本体的语义相似度计算模型,该模型能够比较准确地反映概念之间的语义关系,为概念之间的语义关系提供一种有效的量化。论文在上述基础上,通过对基于统计的信息检索模型和基于本体的信息检索模型进行分析比较,得知这两种模型在某种程度上互补:(1)基于统计的信息检索模型强调关键字的统计信息,然而忽略了关键字之间的语义信息;(2)基于本体的信息检索模型强调关键字之间的语义信息,然而忽略了关键字的统计信息。结合两种信息检索模型各自的优点提出了一种混合的信息检索模型。通过该模型构建了一种新的信息检索系统的原型,并对该原型系统的几个重要的模块的功能及原理进行了说明。最后,实验主要采用JSP作开发技术构建了基于C/S模式的文本信息检索系统,通过protégée开发《数据结构》这门课程前三章的领域本体,使用Apache Tomcat 5.0作为Web服务器,采用Microsoft Office XP Access Professional作为数据库构建的实验环境。实验结果证明该原型用于信息检索中,其查全率和查准率方面较基于统计的信息检索模型和基于本体的信息检索模型有了一定的改进。
其他文献
约束优化和动态优化都是优化问题的主要研究领域,并且由于实际约束优化问题和动态优化问题非常复杂、困难,在实际应用中也非常普遍,所以解决约束优化和动态优化问题是非常有
互联网的数据变得越来越庞大,如何自动地从中抽取信息从而减轻人类的阅读理解负担变得越来越价值。互联网的网页中主要包含三种类型的文本——结构化文本,半结构化文本,自由文本
在当今大数据时代下,很多科学计算应用正从传统的计算密集型向数据密集型模式进行转变。在这些科学计算应用中,多个进程同时访问一个共享文件是一种非常常见的并行I/O访问模
无线Mesh网络是一种新型的宽带无线网络结构,即高容量、高速率的分布式网络,它不同于传统的无线网络,可以看成是无线局域网和移动Ad hoc网络的融合。目前无线Mesh网络已经成
由于具有提升服务器资源利用率、降低管理成本以及减少能耗开销等优点,虚拟化技术在当今的使用越来越广泛。然而,目前仍然有很多传统的应用程序运行在物理服务器之中,还不能
随着信息技术与网络技术的高速发展,嵌入式系统正越来越广泛地应用于科学研究、军事技术、工程设计、消费类电子等方面。本论文研究了嵌入式系统的特点、应用领域和发展状况。
车牌识别系统是随着计算机视觉技术的发展而产生的一项重要的实用技术。它首先应用于智能交通领域。近年来,由于社会发展的需要,车牌识别系统开始进入民用阶段,应用于小区的车辆
近几年来,随着互联网的迅速发展,XML已经发展成为互联网上数据交换或浏览时数据的重要表示媒介,如何有效管理XML文档已经成为一个十分棘手的问题。数据库是目前最主要的数据存储
悬架系统是保证车辆乘坐舒适性和行驶安全性的重要组成部件。传统的被动悬架系统在协调车辆这两个性能方面存在着很大的局限性。近年来人们展开了对电子控制悬架的研究,以提高