论文部分内容阅读
随着人类基因组测序和多种生物模式的顺利完成以及DNA微阵列技术的应用,由此产生了大量的基因表达数据,这些数据具有维数高,样本小的特点。如何有效地从大量基因表达数据中挖掘有价值信息,以求认识数据本质,了解生命过程,分析疾病形成原因,揭示基因功能和相互作用成为目前生物信息学研究所面临的巨大挑战。 基于基因聚类和样本分类是针对基因表达数据挖掘其有用信息的关键手段。基因聚类就是对基因功能划分的一种重要手段,其中选择一种高效聚类方法是至关重要的。对样本分类是实现对基因识别和疾病诊断的一种有效辅助方式,其中对具有高维小样本数据分类的关键步骤是对数据进行降维和特征提取。本文针对基因聚类和样本分类,分别从非负矩阵分解和稀疏表示两个方向做了相关研究。 方向一:非负矩阵分解作为一种新的矩阵分解方式,也是一种新的聚类方式。由于具有非负约束,不仅使得分解后结果具有现实物理意义,还能够较容易提取训练样本的局部特征,本文采用非负矩阵分解对基因聚类做了如下研究: 基因聚类是挖掘基因有价值信息的一种有效方式,通过基因表达水平研究具有相似功能的基因。本文主要通过非负矩阵分解方法对基因的相似功能进行研究: (1)传统聚类方式过分依赖相似性度量,而非负矩阵作为一种有效的数据聚类方法,并不依赖相似度量函数,因此,本文使用基于非负矩阵分解对基因表达数据进行聚类分析; (2)非负矩阵分解对基因表达数据聚类并不能总是展现出良好的聚类效果,因此结合K均值聚类,提出一种基于非负矩阵快速聚类方法; (3)对yeast数据进行基因聚类分析,将文中所提方法与基本的非负矩阵分解和传统聚类方法进行实验,结果表明,所提出的基于非负矩阵快速聚类方法获得更稳定聚类效果。 方向二:稀疏表示作为一种识别率高,鲁棒性强的分类技术,受到众多科研工作者的关注。稀疏表示技术并不关心特征的提取,而在于过多强调分类器的设计,因此,基于稀疏表示对基因表达数据分类的重心在于分类器设计。围绕非负矩阵分解和稀疏表示做了如下工作: 基于基因表达数据样本分类,包括: (1)基于微阵列技术产生的基因表达数据不仅具有典型的高维小样本特性,而且有时每类样本数相差很大,造成严重数据倾斜,因此,提出一种基于数据平衡策略的稀疏表示方法; (2)传统的稀疏表示分类只是利用基因表达数据之间的线性关系,缺乏内在非线性关系,因此,利用基因的相似距离,提出一种相似性稀疏表示方法; (3)针对稀疏表示对高维小样本数据分类的运行速度慢而提出一种稀疏表示的快速计算方法,该方法在不损失精度情况下,大大提高了运行速度; (4)众所周知,基因表达数据也是一种典型高冗余数据,因此,为了降低基因表达数据冗余度,提出一种基于非负矩阵分解子空间的稀疏表示对基因表达数据分类; (5)基于6类真实基因表达数据进行了相关实验,结果表明:基于数据平衡策略的稀疏表示方法对于倾斜数据获得了更好的分类效果;相似性稀疏表示方法主要依赖于相似度量方式。 本文采用了欧式距离、余弦距离、皮尔森系数三种度量方式,只有基于余弦距离和皮尔森系数的分类效果优于基本稀疏表示分类;稀疏表示的快速计算方法效率明显提高,仅对mit数据而言,高达32倍,其他数据也提高2-10倍;基于非负矩阵分解子空间的稀疏表示不仅降低了对具有高维小样本的基因表达数据对算法分类精度的影响,且在6组真实基因表达数据上实验的结果优于SRC,KSRC,CRC,MSRC,CRCpSOC和SVM等方法,而且在算法的稳定性方面也展现出良好的效果。