基于DEA的列表型排序学习方法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:chennyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的蓬勃发展与数码产品的快速增长,产生了海量的信息,使人们深陷其中无所适从,迫切需要一种能够提供高效便捷的信息检索服务的系统,网络搜索引擎因此而逐渐成为人们获取信息的重要工具。搜索引擎系统包含多个子系统,其中排名系统处于核心地位。排名系统能够根据用户提交的检索词从海量的数据中快速定位最相关的文档集合,并按照相关程度顺次反馈给用户,有效减少用户信息检索的时间开销。为此,研究人员提出了大量的排名算法,主要基于内容分析或链接分析,利用文档的相关性特征、重要性特征评价文档同用户检索意图的契合程度。它们极大地改善了信息检索系统的排名系统,但仍然存在两个重要的缺陷:用于构建排序模型的检索词-文档特征有限;或者在利用大量特征构建排序模型时,优选模型参数成为最大的障碍。  排序学习方法是一种机器学习与信息检索的交叉学科,可以从大量的包含人工标记的训练集中自动学习排序模型,并应用于对未知数据的预测分析。排序学习使用的训练实例表示成多维特征的向量形式,包含各种反映文档与检索词相关性的复杂信息。目前,排序学习方法大致可以分成逐点型、序对型和列表型三类,研究表明列表型排序学习方法在大多数公开数据集上的表现最佳。本文重点研究列表型排序学习方法,并利用数据包络分析技术,结合提升技术提出一种新的排名方法——DEARank。  本文修改经典的CCR模型,构建出两种退化的数据包络分析模型:CCR-I与CCR-O,将待排名的文档作为决策单元进行处理,并使用过模型最优权值构建弱排名函数集合。每个备选弱排名函数反映了决策单元对于各个特征的偏好,代表从整个特征空间抽取的一个特征子集。本文利用这些备选弱排名函数,基于提升技术训练性能更优的排序模型。此外,本文还就DEARank在LETOR数据集(包括HP2003、HP2004、NP2003、NP2004、TD2003、TD2004、OHSUMED、MQ2007与MQ2008)上的实证结果,同其它十二个经典的排序学习算法进行对比,实验结果表明DEARank有突出表现,给网络信息检索系统提供了一个重要的排名算法。
其他文献
结合方案和距离正则图的Terwilliger代数是代数组合研究的一个重要问题.本文利用勒纳德对和相关的量子群给出了Johnson图的Terwilliger代数结构.勒纳德对和勒纳德三元组是近
<正>互联网约车平台发展迅猛,是"互联网+"的样板,乘客喜闻乐见,有口皆碑。政府虽然要监管互联网约车平台,但利剑始终高悬未落。我想在这里讨论的是:约车平台的命脉在哪里,怎
信用风险是指交易对手方因为违约而导致投资者遭受损失的可能性,对投资者的利益有很大影响。为了合理地管理信用风险,一些金融机构设计了与违约事件挂钩的信用衍生产品,使投资者
识别网络中重要节点的问题在社会和经济生活中有着重要的作用,近几年已经得到广泛的研究。节点的重要性也称“中心性(centrality)”,是网络分析领域的一个重要问题。这不仅因为
小波分析是在现代调和分析的基础上发展起来的,自从被提出以来它就是前沿科学研究的热点。小波的构造是小波分析的核心问题,众所周知,两尺度加细方程在小波的构造和应用中起
本文研究了目前几种流行的目标检测算法和目标跟踪算法.从目标检测与跟踪算法的技术难点出发,分析得到帧间差分法和背景差分法能达到实时运行检测,然而这两种方法都存在不足,需
Black-Scholcs期权定价模型是由Black和Scholes在1973年提出来的,自其问世以来,在金融经济学和金融业掀起了一场革命。随着金融市场的不断完善,尤其是当金融市场中出现重大的消
本文研究拓扑动力系统中的熵与混沌、零维同构动力学模型、以及实数流及其嵌入,共分为六个章节。第一章是预备知识和准备工作,包含了拓扑动力系统和遍历论中的一些基本概念,以及