论文部分内容阅读
聚类分析是根据事物自身的特性对被聚类对象进行类别划分的统计分析方法,在模式识别、生物医学以及图像分析等重要领域有着广泛的应用,使其成为一个十分活跃的研究方向。随着科学技术的飞速发展,数据集规模的不断扩大,各行各业中积累了大量且具有高维特性的数据,这些特征为数据分析提供了新的可能,但同时也是障碍。传统的聚类算法在处理低维数据时可以得到较稳定的聚类结果,但在高维数据的聚类过程中,会导致传统聚类算法失去聚类分析的意义,从而降低了聚类的有效性。为了能够很好地处理高维数据,聚类分析的研究方向将转移到高维空间上,包括对高维数据的预处理或者数据降维技术的运用。数据降维技术不仅可以有效解决高维数据中的‘维数灾难’问题,降低数据复杂度,还可以减少数据中的噪声和冗余,提炼出人们感兴趣的数据结构,以便能进行更好地分析和研究。为了在聚类算法中实现降维,学者们将聚类算法中的混合模型聚类方法和降维技术中的主成分分析方法进行结合,提出了混合概率主成分分析模型(MPPCA),该模型能同时实现降维和聚类。但对于高维数据(例如图像数据),MPPCA模型的处理方法是将矩阵拉直后进行运算,这样很容易造成维数灾难。为了能更好地处理高维数据,本文在现有的降维模型和聚类模型的基础上,提出了基于二维矩阵型数据的降维方法,更好地改进了高效处理高维数据的聚类方法。全文主要工作包括如下:1.在基于二维矩阵型数据降维方法的双线性概率主成分分析模型(BPPCA)的基础上,结合混合模型,提出了混合双线性概率主成分分析模型(MBPPCA),分析说明了该模型的理论性质。2.对于本文提出的模型的参数估计问题,在EM算法的基础上,给出了ECM算法和AECM算法两种方法来对参数进行估计,并分析了两种算法的计算复杂度,结果显示AECM算法的计算复杂度要明显小于ECM算法的。通过数据模拟,分析比较了两种估计算法的估计精确性和算法收敛性等两方面的性质,结果表明随着样本量的增加,两种算法的估计值不断逼近参数真实值,并且两种算法的估计精度都比MPPCA模型中的参数估计方法要高,ECM算法的收敛速度比AECM算法的要快些。3.对本文提出的模型和已有的PPCA模型在手写数字识别数据库和UMIST人脸数据库上进行试验分析,比较模型的识别效果。对于手写数字识别数据库,本文比较了MBPPCA模型和MPPCA模型在聚成不同的类别和降成不同的维数时的识别效果。结果表明对于该数据库MBPPCA模型的识别效果比MPPCA模型的差些,这与理论推导有些不符,具体原因有待进一步研究。对UMIST人脸数据库,本文比较了BPPCA模型、MPPCA模型和MBPPCA这三个模型,在选取不同训练样本数、不同降维数和不同类别数上进行人脸识别分析,选取不同降维数上的最优识别率,结果显示MBPPCA模型在不同训练样本数和不同类别上的识别效果都要比BPPCA模型和MPPCA模型的好,说明本文提出的模型在该数据库的识别效果比较好。