论文部分内容阅读
随着科学技术的发展,人们(计算机)处理数据的能力越来越强,同时,需要处理的数据的维数也越来越高,数量也越来越惊人。在很多情况下,如人脸识别、基因序列分析等等,往往首先需要对数据进行降维,这样做一方面可以避免“维数灾难”,减少算法的运算量和存储量,另一方面也有助于挖掘数据分布的内在结构。近年来,受流形学习算法的启发,在人脸识别领域当中,掀起了一股新的基于局部加权的降维方法研究热潮。这类方法依据的主要原理大都是从数据分布的局部几何关系出发,来指导整个降维过程。这类方法尽管已经取得了一定的成功,却依然存在一些悬而未决的问题。具体来讲,在线性降维时对基向量加上什么样的约束才最好?如何自动有效地确定局部加权的权值?此外,传统的降维方法往往容易被某些特定的样本对“主导”,而静态的局部加权并不能够从根本上解决这个问题,如何彻底解决?针对以上几个问题,本文在以下几个方面进行了创新性的探索:1.提出了伪逆扩展方法,将流形算法扩展到了测试集上。通过选择合适的正定核函数,该方法总能够保证在训练集上的结果与原始的流形算法结果一样。2.在最近提出的非参数线性降维方法MFA的可分性准则基础上,我们对基向量加上了正交和不相关的约束条件,并从理论上和实验上同时证明了OMFA与UMFA总是优于原始的MFA。3.传统的LDA算法在降维时,结果往往容易被原本就相距较远的样本主导。我们详细讨论了造成这个现象的原因,并提出了新的基于动态最近中心互斥(DNCR)的降维方法来克服这个缺点。最终的算法利用了Grassmann流形上优化的特点,更加有效。4.通过适当的Relaxation,我们将DNCR中的非凸问题转化为凸问题,从而完全避免了局部最小。我们将该方法应用到距离学习中,并且其对偶问题正好可以用来解决MFA中权值的选取问题。