论文部分内容阅读
降维是解决维数灾难的新工具,在近十几年的时间内,无论是在理论上还是在应用上都有较大的突破.面对几十维、几百维甚至上千维的数据,通过降维能够将数据从高维空间映射到低维空间并提取出数据低维本质特征。随着研究的深入,降维也处于不断地发展之中。降维在人脸识别、图像检索、生物信息学等都有着广泛的应用。例如提取高维人脸图像的特征,进一步对特征脸进行处理,可得到非常理想的识别效果。利用降维算法对图像的颜色、形状和纹理等特征进行提取,可以提高图像检索的查准率和查全率。随着基因芯片等新技术的产生,大量的高维生物数据应运而生,例如基因表达谱数据。降维为基因数据的处理提供了新的解决办法。本文的主要工作如下:1.对降维进行了全面的介绍,降维分为线性降维算法和非线性降维算法。线性降维算法主要包括主成分分析、线性鉴别分析、多维尺度变换等;非线性降维算法主要包括局部线性嵌入、ISOMAP、扩散映射等。本文在局部线性嵌入和扩散映射算法基础上进行了改进。包括改进的DDWLLE (Density and Discriminate–based Weighted Locally LinearEmbedding)和改进的Diffusion Maps。从数据近邻点之间的关系入手,对数据分布做了进一步的描述,数据的分布不同,密度信息也不同。改进的DDWLLE算法能够挖掘出数据的密度信息,通过对人工数据集、表情识别和图像检索进行测试,验证了算法的有效性。2.将降维算法和分类方法进行结合,应用到基因表达谱数据中。为了保留基因数据的主要特征,利用PCA和LPP算法对基因数据进行了维数约减,进而利用支持向量机算法对数据中的正常和患病样本进行分类。通过实验数据验证了该方法的可行性和有效性。