异构网络上的迁移排序学习及其应用研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:ys13920715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序学习问题是搜索引擎的核心问题,对它的研究引起了学术界和工业界的广泛关注。传统的排序学习算法主要是从充足的已标号训练样本中学习排序函数,然后将其用来预测同种类型对象构成的测试集的排序结果,它需要满足的一个基本假设是训练集和测试集具有相同的数据分布。这样传统的排序学习方法在应用中会遇到三个瓶颈问题:1)当标号训练样本比较有限时,怎样保证它的预测性能?2)当训练集和测试集具有不同的分布时,怎样进行排序预测?3)对于多种相关联的异构对象,怎样对不同对象进行排序?  为了解决以上问题,本文讨论一类“异构网络跨域排序学习问题”:给定一个网络化(networked)的数据集,如果源域和目标域中的对象是异构的,怎样通过利用源域中的充足标号数据来帮助完全没有或者仅有有限标号数据的目标域中排序函数的学习?它与传统排序学习问题的主要区别在于:1)目标域上标号训练样本比较有限时,可以充分利用源域上的监督信息进行知识迁移;2)训练集合和测试集合可以具有不同的数据分布;3)对于多种相关联的异构对象,可以充分利用非独立同分布( non-independent and identically distributed)的对象间的拓扑结构来对问题进行形式化定义。  1)提出一类“异构网络上的跨域排序学习”问题,通过使用迁移学习的方法借助相关域上的标号样本信息来解决目标域上标号训练样本不足的问题。  2)针对异构网络上跨域排序学习问题中目标域不存在标号样本的情况,定义一种新的问题“传导跨域排序学习(transductive cross domain ranking)”,并给出解决框架TraRank及两种不同的实例化方法。  3)针对异构网络上跨域排序学习问题中目标域存在有限标号样本的情况,定义一种新的问题“归纳跨域排序学习(heterogeneous cross domain ranking)”,并基于正则化方法给出解决框架HCDRank,进一步利用异构对象间的链接信息提升模型的性能。我们对提出的方法进行了理论分析并得到它的泛化界以此来说明两个相关联的域如何相互帮助来进行排序函数学习。  4)将异构网络跨域排序学习问题应用到两个实际问题:伯乐搜索( best supervisor finding)和基于评论数据的情感分析。伯乐搜索通过使用专家搜索中的标号数据来帮助伯乐的排序函数学习,而基于评论数据的情感分析通过使用书籍类别的评论打分数据帮助电影类别的评论打分预测。
其他文献
针对传统聚类算法自动获取密度阈值不够精确的问题,本文提出了一种密度网格内基于参数自适应的数据流聚类算法A-Stream。算法引入了“双密度阈值”策略;“双密度阈值”策略改变
视频序列中的目标跟踪是机器视觉研究领域的一个重要课题,已经被广泛应用于各个领域。但是,由于场景的复杂性和目标运动的不确定性等因素的影响,实现准确地目标跟踪还面临着
物联网概念的提出,很大程度上加快了无线网络的发展。Ad-Hoc网络由分组无线网络发展而来,之后国内外掀起一阵研究Ad-Hoc网络的热潮。路由协议是网络数据发送与接收的基础,国
移动节点定位问题是无线传感器网络的研究热点之一,它利用少量位置已知节点,按照某种机制对未知节点进行定位。现有算法存在仅适用于静止节点、测距方法受环境影响大、定位精
消息中间件是一种基于分布式系统的消息传递中间件,它作为一个消息系统,为分布式系统节点间的可靠、稳定通信提供平台,它可以基于不同协议、硬件平台、语言、操作系统进行有
随着能源问题的日益严峻,水力发电作为一种清洁可再生的能源越发地受到重视。压力钢管作为水电站的重要组成部分,在电站正常运行维护期,特别是投产的初期和经过多年的运行后,
无线传感器网络(Wireless Sensor Network,WSN)是一门集中了嵌入式技术、微电子技术、传感器技术、分布式信息处理技术和通信网络等技术的交叉学科,在环境监测、医疗卫生、国
随着计算机与网络技术的发展,Web已经成为人类知识的存储库,用户可以方便快捷地接触到丰富的信息。因而在如此浩瀚的信息中找到对自己真正有用的信息成为人们关注的焦点。在
学位
数据挖掘是当前知识发现领域中的一个研究热点,其中的关联分析是一种重要方法。像大多数行业一样,供热企业也存储了大量的数据。面对这些纷繁复杂的供热数据,传统的分析手段