论文部分内容阅读
人脸识别技术是一种生物特征识别技术,由于其数据采集的友好性、面部的客观性以及应用场景的多样性,使其已成为模式识别与深度学习方面的研究热点。但人脸识别在具体应用过程中会遇到各种实际问题,尤其是对人脸图像特征提取的影响。不同的特征提取方法对于最终的识别有着举足轻重的作用。早期人们一般是从纹理、形态、色彩等主观方面进行,难以提取人脸图像中的本质结构信息。流形学习理论的发展为高维数据的特征提取提供了新的思路,而且相关的研究表明人脸数据更有可能分布于高维的非线性流形结构上,因此非线性降维和流形学习理论越来越多地被人们应用于图像识别尤其是人脸识别中。本文以流形学习为基础,主要研究了局部线性嵌入(Locally Linear Embedding,LLE)算法和有监督的局部线性嵌入(Supervised Locally Linear Embedding,SLLE)算法,针对偏离样本整体分布的样本点在低维重构过程中可能映射在其它平面的不足,同时结合Kmeans++算法的优点,提出了基于聚类的Cluster-SLLE算法;同时针对CSLLE算法引入新的参数、以及类内距与类间距线性关系对噪声鲁棒性较差的缺点,改进了算法中的距离相似性度量,与传统算法相比,该算法在相关的人脸数据集检验中具有较高的识别率。本文的主要研究工作如下:1.对流形学习中基于全局保持以及局部保持的降维方法,如主成分分析、多维尺度分析、拉普拉斯特征映射等进行了较为详细的理论阐述,并在相关的数据集上进行算法的对比分析,研究了各算法存在的优势与不足之处。2.在流形学习的基础上,细致地分析了LLE算法、引用样本类别信息的SLLE算法以及在具体应用过程中参数的取值问题。SLLE算法利用样本的类别标签进行数据点间的相似性度量,但忽略了数据集中类别差异性较大的个体对整体数据的影响,因而提出了基于聚类的Cluster-SLLE算法,通过引入Kmeans++聚类算法标识“奇异点”,对数据点间的距离矩阵作进一步地改进,在Yale和ORL人脸数据集中表明了算法的可行性及泛化能力的提高。3.在SLLE及CSLLE算法中,类间数据点间距离及类内数据点间距离的相似性度量呈线性关系,使得嵌入数据的判别和泛化能力仍被限制在一定的范围;而且样本中存在的噪声会破坏样本间的邻域关系;另外,CSLLE算法虽一定程度提高了识别率,但也引入了新的不确定因素:新参数的取值问题,增加了算法的主观性。针对此种情形,在原有算法的启发下,提出了优化类内样本间距离的度量的改进算法,在减少参数个数的同时,也降低了噪声对实验的干扰,有助于人脸数据的低维嵌入表示。