论文部分内容阅读
因特网的飞速发展使得以电子形式存在的信息资源越来越多。对于繁多纷杂的信息资源通过人工筛选来获取所需的信息已是不可能的,信息检索可以帮助人们从浩瀚的信息资源中找到所需的信息。由于在自然语言理解上目前还未取得重大突破,大多数信息检索系统都是基于关键字或词的机械式的符号匹配的方式进行检索的。反馈技术能够对用户的查询进行重造,目的是使检索结果更好地满足用户的信息需求。相关反馈能够非常有效地提高检索性能,但需要用户判断哪些符合自己的意图,并将它们标识出来,在很多工R系统中的实现效率都不太高。伪相关反馈不需要用户的参与,系统默认自己检索结果的前N篇文档是相关文档,但是某些情况下这种假设是不成立的。本文旨在语言模型的框架下提出一种能够在无需用户参与的情况下,全自动的实现接近相关反馈效果的一种模型,我们称为FWN模型。信息检索系统的检索结果列表中,相关文档间的相似度普遍较高,不相关文档间的相似度较低,特征分布也相对松散。文档排名越靠前,文档是相关文档的可能性越高,故可对检索结果前N篇文档先进行聚类分析,去除一部分不相关的文档。然后应用相关反馈算法进行查询词的扩展和概率值的重新分配来增强反馈效果,最后用产生的新查询进行检索。为了验证FWN模型,本文在TREC测试集上进行了一系列的实验。实验的结果显示出这个模型的检索性能比原查询和伪相关反馈模型都有显著提升,证明了本模型是非常有效的。