论文部分内容阅读
互联网的蓬勃发展与数码产品的快速增长,产生了海量的信息,使人们深陷其中无所适从,迫切需要一种能够提供高效便捷的信息检索服务的系统,网络搜索引擎因此而逐渐成为人们获取信息的重要工具。搜索引擎系统包含多个子系统,其中排名系统处于核心地位。排名系统能够根据用户提交的检索词从海量的数据中快速定位最相关的文档集合,并按照相关程度顺次反馈给用户,有效减少用户信息检索的时间开销。为此,研究人员提出了大量的排名算法,主要基于内容分析或链接分析,利用文档的相关性特征、重要性特征评价文档同用户检索意图的契合程度。它们极大地改善了信息检索系统的排名系统,但仍然存在两个重要的缺陷:用于构建排序模型的检索词-文档特征有限;或者在利用大量特征构建排序模型时,优选模型参数成为最大的障碍。 排序学习方法是一种机器学习与信息检索的交叉学科,可以从大量的包含人工标记的训练集中自动学习排序模型,并应用于对未知数据的预测分析。排序学习使用的训练实例表示成多维特征的向量形式,包含各种反映文档与检索词相关性的复杂信息。目前,排序学习方法大致可以分成逐点型、序对型和列表型三类,研究表明列表型排序学习方法在大多数公开数据集上的表现最佳。本文重点研究列表型排序学习方法,并利用数据包络分析技术,结合提升技术提出一种新的排名方法——DEARank。 本文修改经典的CCR模型,构建出两种退化的数据包络分析模型:CCR-I与CCR-O,将待排名的文档作为决策单元进行处理,并使用过模型最优权值构建弱排名函数集合。每个备选弱排名函数反映了决策单元对于各个特征的偏好,代表从整个特征空间抽取的一个特征子集。本文利用这些备选弱排名函数,基于提升技术训练性能更优的排序模型。此外,本文还就DEARank在LETOR数据集(包括HP2003、HP2004、NP2003、NP2004、TD2003、TD2004、OHSUMED、MQ2007与MQ2008)上的实证结果,同其它十二个经典的排序学习算法进行对比,实验结果表明DEARank有突出表现,给网络信息检索系统提供了一个重要的排名算法。