论文部分内容阅读
多视图学习是指针对有多个特征表示数据的智能学习方式。在过去的十几年中,多视图学习受到了极大关注并且有许多理论成果和实际应用算法。但是到现在为止,大部分相关工作都集中在传统的多视图分类、聚类和降维任务,并且只能被应用到全配对场景。然而现实应用持续引出新的复杂学习场景。比如,多视图分类和检索任务有时依赖于合适的度量,因而需要解决多视图度量学习的任务。另外在有些严苛的场景中,多视图数据在收集和传输过程中会由于设备故障、恶意攻击和应用场景限制等原因不能保证是完全配对的。因此,如何设计适用于该场景的多视图学习算法也是本文所主要考虑的问题。而且,将多视图学习的方法移植到单视图学习中也能够提升单视图学习的性能。本文主要贡献总结如下,1)提出一个co‐training风格的多视图度量学习算法co‐metric。该算法受co‐training的学习思想启发,为每个视图学习一个度量,并且通过使它们互相教的方式来提升它们的性能。而且,它能利用现有的单视图学习算法,因而实现十分简单。该算法的关键步骤是用学到的度量来挑选出可靠标号的样本。为此,我们设计了一个简单有效的方法:将K近邻算法的参数K设置为一个较大的正数。实验表明了该算法的有效性。2)提出一个通过同时对齐先验和后验概率学习在完全无配对场景下的跨视图度量的模型MLHD。该模型首先将每个视图的样本映射到一个公共空间中,然后同时对齐它们的先验概率p(sample)和后验概率p(label|sample)。通过调整和变量替换,该模型能够只用一个半正定矩阵来重新参数化。通过引入一个对数行列式函数来正则化该矩阵参数,MLHD模型能够用Bregman投影算法来优化,并且能够自动保持矩阵的半正定性。之后,我们证明该模型有一个等价的只依赖于样本内积的优化问题,因而能够被方便地核化。实验证明,该模型在跨语言检索和跨域的目标识别任务中有良好的表现。3)介绍了一种新的辅助信息,即跨视图的must‐link和cannot‐link,并且将其应用到完全无配对场景下的多视图分类任务中。这种新的辅助信息是广泛使用的单视图must‐link和cannot‐link的一个自然推广,指示了在不同视图中的两个样本是否有相同的标号。我们改造了经典的正则化模型,通过添加跨视图的must‐link和cannot‐link正则化项来将该辅助信息应用到完全无配对场景下的多视图分类任务中。实验证实了该辅助信息的有效性。4)提出了一个在单视图数据上通过构造一个新的数据聚类视图来同时学习分类和聚类的模型。该模型利用数据聚类视图来结合分类和聚类任务,并且能够使用块坐标下降算法来优化。和先前Cai等人提出的方法相比,该模型更加灵活,能够借助流形正则化推广到半监督场景中。而且速度也快了将近一个数量级。