网页学习排序算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tonight000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高端先进的信息技术,将我们带入了一个浩如烟海的数字时代。大量数据的涌入使得搜索引擎变得越来越重要,如何从海量数据中快速定位所需信息显得异常关键。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,它决定着搜索引擎排序结果,直接影响着搜索引擎的性能和用户体验。信息检索领域有许多网页排序算法,大致可归类为样本点级别方法模型、样本对级别方法模型以及样本列表级别方法模型。研究者们在这三类方法中运用多种算法做了很多贡献,然而对网页学习排序算法的研究仍处于白热化阶段。针对网页学习排序问题,本文首先SVM(Support Vector Machine)分别从样本点级别和样本对级别建立了基于SVM的网页学习排序模型。求解部分运用交叉检验的思想选择SVM模型中的参数,同时进行了核函数选择分析;在数据分析与处理时,选取了部分特征数据进行可视化以及数据分维分析,为消除数据量纲影响在预处理部分做了归一化处理。在样本对方法下的SVM网页排序模型求解中,本文采用随机排序配对方法得到训练样本。接着,运用启发式方法建立了遗传算法优化BP(BackPropagation)神经网络学习排序模型。该模型利用遗传算法的寻优能力,得到较好的BP网络初始权值和阈值,以提高BP网络的性能。为减轻BP网络训练复杂度,求解部分运用主成分分析法将训练数据进行了压缩,在保证较高的数据保真度时使压缩后的数据维度降至使BP网络结构合适的程度。最后,基于Boosting思想建立了基于Boosting算法的网页排序模型,旨在研究强学习排序器在弱学习机基础上的提升能力。本文在LETOR数据子集OHSUMED上进行实验。实验结果表明样本对级别模型的学习排序能力稍高于样本点级别;遗传算法优化BP网络权值与阈值能提高模型的排序精度,但时间开销很大;Boosting方法中的强学习排序器能取得较好效果。
其他文献
超临界水堆(Supercritical Water-Cooled Reactor,SCWR)是第四代新型核能系统中唯一的水冷堆,具有热效率高、系统结构简单、安全性好、燃料利用率高等特点,因而其在经济性、工程
作品编号:H014 《红梅迎春》 姚勤
物流产业的发展程度是衡量一个国家综合国力和现代化水平的重要标志之一,在国际上被认为是国民经济发展的基础产业和经济发展的推动器。众所周知“第一利润源泉”是降低资源消
摘 要:当前社会飞速发展,对于能源的需求也与日俱增。石油作为与煤、天然气并列的三大资源之一,对于我国的经济发展有着重要的促进作用,能够直接影响我国的发展进程。石油钻井工程技术能够改进我国以往对于石油开采的方式,是十分关键的一项技术。鉴于此,笔者从我国现今的石油钻井技术作为研究对象,对该技术的发展趋势进行了讨论与探究[1]。  关键词:石油钻井工程技术 现状 发展趋势  随着我国经济的不断发展,也加
本文推广拓展了徐的直觉模糊集成算子,接着给出了新的带有优先权的直觉模糊集成算子:直觉模糊PRI-AND算子和直觉模糊PRI-OR算子.同时我们给出新的直觉模糊集的余弦相似性测度,
协同系统作为可靠性工程中一项重要技术,它被广泛应用于许多领域的系统设计中.本文主要研究了n取nk+1系统剩余寿命和休止时间的随机比较问题.首先,研究了由独立同分布元件构成的系统在多监控下剩余寿命的随机比较问题.主要基于n个独立同分布元件研究了n取nk+1系统在某一特定时刻仍在工作的情形,并基于失效率序和似然比序意义下得到,若这两个不同结构的系统之间具有一定的序关系,则这两个协同系统在多监控下剩余寿