论文部分内容阅读
随着互联网的蓬勃发展,信息资源数量呈指数级的增长,信息检索技术也在不断地进步。通过信息检索系统,用户可以迅速地接触到丰富精彩的信息,对于生活、工作和学习都带来了许多便利。然而面对海量的数据信息,核心的问题是如何快速又准确地从中找出与用户需求相关的内容。仅仅把文档中的词与查询词进行匹配的方法并不能带来良好的检索结果,因此挖掘更加有效的信息来提高检索精度成为一个研究热点,已有的研究表明将各方面的附加信息有效地融合进信息检索的过程将带来更好的检索效果。对一个具体查询而言,可以充分利用与已有查询的相关性、词语相关性和文档相关性等信息进行查询扩展和重构。基于这种思路,本文通过分别构造查询网络、词网络和文档网络及他们之间的关系提出了多层Markov网络的信息检索模型,模型可以融合词间关系、文档间关系和查询间关系,为了有效降低计算量,给出了基于团计算模型。实验表明本文的模型能够有效融合三方面的信息,并较大幅度地提高检索效果。本文的创新点主要有:1.通过对训练文档集的学习,根据词与词相关性、文档与文档相关性和查询与查询之间的相关性来构造Markov网络。2.为了避免加入较多的噪音信息,通过设定阈值,同时为了有效地降低计算量,给出了团的计算模型,分别提取词团、文档团和查询团信息,将这三种信息分别赋予不同的权重,融入至文档与查询的概率公式中,计算文档与查询的最终相关概率。