论文部分内容阅读
在一些领域的学习中,如模式识别,它们所需要的数据如图像数据都是存储在高维空间中,而且数据结构比较的复杂,同时可视化程度相对的不太好。多年以来,流形学习和其算法在数据可视化方面和数据降维的领域取得了较大成功,慢慢变为该领域热点问题。尽管这些算法得到了非常广的应用,但是只能对单个的流形数据进行降维。在现实世界的许多应用中,如跨语言信息检索、图像和文本的匹配、姿态估计等都需要处理两个或则更多的数据集。很多年以来,学者们为了处理这个问题经过努力提出了流形对齐算法。流形对齐可以将来自不同的流形数据映射到一个共同的低维空间,并保持每个流形的局部几何结构不变,同时匹配不同数据集样本之间的对应关系。在流形对齐算法中,流形样本点之间的关联性挖掘是流形对齐的关键步骤。因此,本文在围绕如何更准确挖掘不同流形样本点之间关联性的问题,提出新的流形对齐算法。简单来说,本文有下面工作:1.在针对无法获取对应信息的无监督情形,本文提出一个基本的假设:对于两个流形或则更多流形上关联性较强的样本点,其邻域点之间也会具有较强的关联性。基于此假设,我们提出一种新的非监督流形对齐算法,通过学习局部邻域之间的关联性以挖掘不同流形样本点间的关联性,再将两个或则多个流形样本点投影到共同的低维空间,同时保持所挖掘的关联性。2.在半监督算法中,需要事先给出部分已知对应信息点,但是当给定对应点信息不充分时,单一的利用局部结构或全局结构都无法准确的挖掘不同流形样本点之间的关联性。因此本文提出了一种新的算法思路,首先构造流形样本点之间的初始化关联性,然后用样本点之间的局部结构相似性对初始化关联性进行修正,这样更为准确的发掘流形样本点之间的关联性。进一步的,提出一种新的半监督流形对齐算法,利用已知信息点和所挖掘的样本点关联性,将多个流形样本点投影到共同的低维空间。3.最大方差展开(Maximum Variance Unfolding,MVU)是一种比较经典的流形学习方法,主要目的是把单一流形展开有效的获取流形数据的低维坐标。将MVU的思想进一步扩广,我们提出了基于最大方差展开的流形对齐算法。我们目的是构造半定规划(semi-definite programming,SDP)模型,首先是保证流形中每个样本点的近邻点的距离不变,以此保证稳定性。然后再用给出的对应信息点之间的关联性为约束,对此进行建模,构造一个目标函数来求解问题。最后求解此SDP模型,获取多个数据集的低维坐标。最后通过在多个实际数据集上验证我们上面提出的三种算法有效性。