论文部分内容阅读
在数据挖掘和机器学习中,海量高维数据的处理常常导致维数灾难,给数据分析和处理带来了很大的不便。流形学习的方法能够找到嵌入高维数据空间中的低维子流形,从而使得维数大幅约减,并且保留了重要的信息。因此从信息的角度看,流形学习是特征提取的重要手段之一。在理论和应用方面,流形学习虽然取得了巨大的成就,但仍有很大发展的空间,特别是在监督流形学习方法的理论和应用方面。监督流形学习方法的讨论热点往往是类别的标签信息重要还是局部流形结构重要的问题。Locality Sensitive Discriminant Analysis[1](局部敏感性判别分析法,简称LSDA),利用了标签信息并很好的保留了局部流形结构。本文在监督流形学习方法LSDA的基础上,提出新的流形学习方法Globality-Locality Sensitive Discriminant Analysis(全局-局部敏感性分析法,简称G-LSDA),旨在保留LSDA方法优点的同时又较好的反映了全局的流形结构。主要工作包括以下几个方面:首先,LSDA是基于Euclidean Distance(欧氏距离)的方法,然而如果邻域过大,采用欧氏距离,会使得流形上数据点之间的真正近邻关系被破坏。因此考虑采用其它相似性度量来代替欧氏距离,本文采用测地距离代替欧氏距离,在一定程度上避免了这种情况。其次,LSDA是局部的流形学习方法,G-LSDA是在LSDA基础上的全局的流形学习方法,全局性体现在两个方面,一是保留了类内局部流形结构,使得类与类之间流形结构全局化。二是整个流形结构全局化。对于极少train(训练)样本,属于同类的数据点映射后在尽可能靠得近的同时保持原数据点的几何性质,属于不同类别的数据点映射后在尽可能离得远的同时保持原数据点的几何性质。鉴于G-LSDA是线性的流形学习方法,本文又提出核G-LSDA,目的是发掘高维非线性流形的内在几何结构。本文将G-LSDA应用到人脸识别中,实验结果表明比LSDA有更好的识别效果。