基于聚集系数的文本检索查询性能预测

论文部分内容阅读

随着信息技术的发展,信息资源呈爆炸性增长,人们迫切地需要从海量的文档集中搜索自己感兴趣的信息,信息检索技术应运而生并发挥着越来越重要的作用。然而,目前的信息检索系统都存在严重的鲁棒性问题,查询性能预测作为最可能解决该问题的技术,受到信息检索界的广泛关注。研究人员针对查询性能预测做了大量的工作,提出了包括Clarity Score、Robustness Score等经典的算法,然而,基于检索前的方法预测的准确性较差;基于检索后的方法,预测的准确性较高,但是都要分析所有相关文档的几何特性,计算复杂度高。本文中,我们分析了信息检索的影响因素,发现查询、文档集、检索模型及模型中的参数都对信息检索性能有重大影响,而检索系统没有识别所有查询词项更是导致检索失败的根源。基于“检索系统没有识别所有查询词项是导致检索失败的根源”和“聚团性假设”两大理论,借鉴向量空间模型中的思想,我们提出了基于聚集系数的文本检索查询性能预测模型,该模型利用聚集系数来衡量检索系统对所有查询词项的识别度和返回的相关文档间的相似度,实验证明,聚集系数与查询的难易度有着显著的一致性联系,与Clarity Score、Robustness Score模型相比,聚集系数模型能够较为准确地对查询性能进行预测。相对于以往的模型,聚集系数模型有许多创新:(1)同时利用检索系统对所有查询词项的识别度和返回文档的相似度,可以获得更好的预测性能;(2)取消了“文档中的频繁词项之间相互独立”的假设和“查询词项与文档中的频繁词项相互独立”的假设,更加符合实际应用情形;(3)只需要分析返回的前k个(k一般取10)相关文档,在取得不错的预测性能的同时,计算速度非常快。除了用于解决检索系统的鲁棒性问题,聚集系数模型还可以用于分布式信息检索的结果融合、元信息检索的结果融合、帮助用户构造更有效的查询、查询扩展等众多领域,具有重要作用。

其他学术论文