论文部分内容阅读
机器学习是人工智能的核心研究领域之一。机器学习中大量算法与图密切相关,如谱聚类,半监督学习与降维技术等,其中图通常用于刻画数据间的相似性关系。在该类算法中,图构建的好坏对算法的性能有着重要影响。因而如何构建一个高质量的图成为近年来机器学习领域的一个研究热点。本文提出了一种新的构图思想,并针对降维技术对其进行了系统研究,主要工作如下:(1)同时降维与图学习的思想。传统的图构建方法往往独立于学习任务,即先构图,再将其应用于后续的学习任务(如降维)。这样一旦构建了一个“坏”的图,且在学习任务中固定不变,势必会严重影响算法的性能。本文针对降维问题,提出了同时降维与图学习的思想,尝试将图作为优化变量在降维过程中完成学习。然后,提出了四种降维算法(2)-(5)对该思想进行了具体实现。(2)熵正则化的同时降维与图学习。基于局部保持投影LPP,通过对图施加熵正则化约束提出了图优化的局部保持投影GoLPP算法,导出了一个带有热核权的图更新公式。GoLPP有效减轻了原始LPP算法对k近邻(建图)准则的严重依赖性,并且实验验证了如此优化的图往往有利于后续分类性能的提高。(3)半监督的同时降维与图学习。由于GoLPP中强的约束导致其无法(像传统半监督算法那样)自然地嵌入监督信息,因而,我们首先通过松弛约束改进了GoLPP,然后在图的优化过程中嵌入逐对约束的监督信息,得到了具有概率含义的半监督边权更新公式。与其它半监督算法相比,实验验证了其有效性。(4)预定义图约束的同时降维与图学习。GoLPP的图更新公式仅依赖于投影空间的信息,然而我们通过实验证明投影空间的信息未必总是可靠。为避免图在优化时跟随投影方向自由变动,本文试图在图的优化过程中对图施加一定的约束,将其限制在预定义图S0附近。这样得到的图更新公式是原始空间中预指定图S0与投影空间中新建图(带有负欧氏距离权)的加权和,既结合了原始数据信息,又利用了不同投影数据的信息。实验验证了该模型具有更强的适应性。(5)稀疏约束的同时降维与图学习。GoLPP中对图施加了最大熵原则,导致其丧失了传统图(如k近邻图)中的稀疏性。本文将稀疏表示建图与寻求投影方向(保持这样的图)同时进行,提出了稀疏约束的同时降维与图学习算法,为稀疏保持投影SPP与GoLPP之间提供了一种自然联系。在某些数据集上实验验证了所提算法较GoLPP及SPP具有更好的性能。(6)同时降维与图学习的正则化框架。将上述算法统一起来,根据不同先验,动机或假设施加不同的正则化项,从而得到不同的与问题密切结合的图或图更新公式。同时,为设计新的图学习算法提供了一个可供选择的平台。