论文部分内容阅读
在许多实际应用领域中,我们面临的往往是多变量(特征)大样本数据的分析和处理问题,即高维数据的分析和处理问题。这类问题的共同特征之一是众多的变量(特征)提供了在一定程度上有所重叠的信息,使得人们很难抓住主要信息。因此,人们希望在对数据进行定量分析的过程中,能够事先进行高维数据的降维或特征提取,以便用维数较少且互不相关的新变量来反映原变量所提供的绝大部分信息。
主成分分析便是适应这一要求的理想工具之一。然而,经典的主成分分析是对于“点数据”而言的。近年来,基于复杂数据的主成分分析成为研究的热点。区间数是一种常用的复杂数据,本论文研究基于区间数的主成分分析。主要内容如下:
第一,综述了主成分分析和区间数基本内容,包括主成分分析的基本思想、主成分分析的算法、主成分分析的应用和区间数的背景。
第二,在对区间主成分分析的主要方法进行比较研究的基础上,基于欧氏距离定义了一种效度指标,并对该方法的效度进行了模拟研究和比较分析。
第三,基于区间模糊聚类分析方法和中点半径主成分分析法,提出一个新的区间主成分分析方法,这个方法综合考虑了区间值数据的中点和半径提供的信息,且计算简便、有效。
第四,基于经验相关矩阵,提出一种新的区间主成分分析方法。实验数据表明,该方法能有效利用数据信息。