论文部分内容阅读
近些年,多媒体和网络技术发展迅速,促使了图像数据数量的大幅度增长,因此如何能够快速、准确地获取图像数据中的有用信息成为急需解决的问题,而维数约简技术作为其中的一种解决方案,现已成为一个非常热门的研究方向。到目前为止,最具有标志性的两种方法分别为主成分分析(Principal ComponentAnalysis, PCA)和线性判别分析(Linear Discriminant Analysis, LDA)。LDA是一种有监督的维数约简方法,其基本思想是找到一个最佳的投影方向,使投影到该方向上的样本数据的类间离散度最大,同时类内离散度最小。但当每个类别中的训练样本数目较少时,LDA方法却存在着严重的过拟合问题,而造成这种现象的主要原因是根据有限数目的训练样本计算得到的类间散布矩阵和类内散布矩阵与理想的类间散布矩阵和类内散布矩阵之间存在着较大的偏差。为了解决这个问题,本文提出在不增加训练样本数目的情况下,充分利用给定训练数据自身的结构信息,先运用k-均值聚类算法形成新的样本数据,计算新样本数据的类间散布矩阵和类内散布矩阵。然后利用新样本数据的类间散布矩阵来归一化原始样本数据的类间散布矩阵,同时,利用新样本数据的类内散布矩阵来归一化原始样本数据的类内散布矩阵。这里,新样本数据的类间散布矩阵和类内散布矩阵对结果的贡献值是与每个类别中训练样本的数目成反比例关系的。最后,本文分别在AR人脸数据库和FERET人脸数据库以及Carreira-Perpinan人耳数据库上做了大量的实验,证明了本文提出的算法的优势之处。