论文部分内容阅读
排序学习问题是搜索引擎的核心问题,对它的研究引起了学术界和工业界的广泛关注。传统的排序学习算法主要是从充足的已标号训练样本中学习排序函数,然后将其用来预测同种类型对象构成的测试集的排序结果,它需要满足的一个基本假设是训练集和测试集具有相同的数据分布。这样传统的排序学习方法在应用中会遇到三个瓶颈问题:1)当标号训练样本比较有限时,怎样保证它的预测性能?2)当训练集和测试集具有不同的分布时,怎样进行排序预测?3)对于多种相关联的异构对象,怎样对不同对象进行排序? 为了解决以上问题,本文讨论一类“异构网络跨域排序学习问题”:给定一个网络化(networked)的数据集,如果源域和目标域中的对象是异构的,怎样通过利用源域中的充足标号数据来帮助完全没有或者仅有有限标号数据的目标域中排序函数的学习?它与传统排序学习问题的主要区别在于:1)目标域上标号训练样本比较有限时,可以充分利用源域上的监督信息进行知识迁移;2)训练集合和测试集合可以具有不同的数据分布;3)对于多种相关联的异构对象,可以充分利用非独立同分布( non-independent and identically distributed)的对象间的拓扑结构来对问题进行形式化定义。 1)提出一类“异构网络上的跨域排序学习”问题,通过使用迁移学习的方法借助相关域上的标号样本信息来解决目标域上标号训练样本不足的问题。 2)针对异构网络上跨域排序学习问题中目标域不存在标号样本的情况,定义一种新的问题“传导跨域排序学习(transductive cross domain ranking)”,并给出解决框架TraRank及两种不同的实例化方法。 3)针对异构网络上跨域排序学习问题中目标域存在有限标号样本的情况,定义一种新的问题“归纳跨域排序学习(heterogeneous cross domain ranking)”,并基于正则化方法给出解决框架HCDRank,进一步利用异构对象间的链接信息提升模型的性能。我们对提出的方法进行了理论分析并得到它的泛化界以此来说明两个相关联的域如何相互帮助来进行排序函数学习。 4)将异构网络跨域排序学习问题应用到两个实际问题:伯乐搜索( best supervisor finding)和基于评论数据的情感分析。伯乐搜索通过使用专家搜索中的标号数据来帮助伯乐的排序函数学习,而基于评论数据的情感分析通过使用书籍类别的评论打分数据帮助电影类别的评论打分预测。