基于非负矩阵分解和稀疏表示对基因表达数据的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kimimoomoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组测序和多种生物模式的顺利完成以及DNA微阵列技术的应用,由此产生了大量的基因表达数据,这些数据具有维数高,样本小的特点。如何有效地从大量基因表达数据中挖掘有价值信息,以求认识数据本质,了解生命过程,分析疾病形成原因,揭示基因功能和相互作用成为目前生物信息学研究所面临的巨大挑战。  基于基因聚类和样本分类是针对基因表达数据挖掘其有用信息的关键手段。基因聚类就是对基因功能划分的一种重要手段,其中选择一种高效聚类方法是至关重要的。对样本分类是实现对基因识别和疾病诊断的一种有效辅助方式,其中对具有高维小样本数据分类的关键步骤是对数据进行降维和特征提取。本文针对基因聚类和样本分类,分别从非负矩阵分解和稀疏表示两个方向做了相关研究。  方向一:非负矩阵分解作为一种新的矩阵分解方式,也是一种新的聚类方式。由于具有非负约束,不仅使得分解后结果具有现实物理意义,还能够较容易提取训练样本的局部特征,本文采用非负矩阵分解对基因聚类做了如下研究:  基因聚类是挖掘基因有价值信息的一种有效方式,通过基因表达水平研究具有相似功能的基因。本文主要通过非负矩阵分解方法对基因的相似功能进行研究:  (1)传统聚类方式过分依赖相似性度量,而非负矩阵作为一种有效的数据聚类方法,并不依赖相似度量函数,因此,本文使用基于非负矩阵分解对基因表达数据进行聚类分析;  (2)非负矩阵分解对基因表达数据聚类并不能总是展现出良好的聚类效果,因此结合K均值聚类,提出一种基于非负矩阵快速聚类方法;  (3)对yeast数据进行基因聚类分析,将文中所提方法与基本的非负矩阵分解和传统聚类方法进行实验,结果表明,所提出的基于非负矩阵快速聚类方法获得更稳定聚类效果。  方向二:稀疏表示作为一种识别率高,鲁棒性强的分类技术,受到众多科研工作者的关注。稀疏表示技术并不关心特征的提取,而在于过多强调分类器的设计,因此,基于稀疏表示对基因表达数据分类的重心在于分类器设计。围绕非负矩阵分解和稀疏表示做了如下工作:  基于基因表达数据样本分类,包括:  (1)基于微阵列技术产生的基因表达数据不仅具有典型的高维小样本特性,而且有时每类样本数相差很大,造成严重数据倾斜,因此,提出一种基于数据平衡策略的稀疏表示方法;  (2)传统的稀疏表示分类只是利用基因表达数据之间的线性关系,缺乏内在非线性关系,因此,利用基因的相似距离,提出一种相似性稀疏表示方法;  (3)针对稀疏表示对高维小样本数据分类的运行速度慢而提出一种稀疏表示的快速计算方法,该方法在不损失精度情况下,大大提高了运行速度;  (4)众所周知,基因表达数据也是一种典型高冗余数据,因此,为了降低基因表达数据冗余度,提出一种基于非负矩阵分解子空间的稀疏表示对基因表达数据分类;  (5)基于6类真实基因表达数据进行了相关实验,结果表明:基于数据平衡策略的稀疏表示方法对于倾斜数据获得了更好的分类效果;相似性稀疏表示方法主要依赖于相似度量方式。  本文采用了欧式距离、余弦距离、皮尔森系数三种度量方式,只有基于余弦距离和皮尔森系数的分类效果优于基本稀疏表示分类;稀疏表示的快速计算方法效率明显提高,仅对mit数据而言,高达32倍,其他数据也提高2-10倍;基于非负矩阵分解子空间的稀疏表示不仅降低了对具有高维小样本的基因表达数据对算法分类精度的影响,且在6组真实基因表达数据上实验的结果优于SRC,KSRC,CRC,MSRC,CRCpSOC和SVM等方法,而且在算法的稳定性方面也展现出良好的效果。
其他文献
利用涡度相关法获取神农架大九湖泥炭湿地2016-2017年的蒸散数据,选用FA056 Penman-Monteith公式及实际蒸散(ETa)与参考蒸散(ET0)之间的线性关系估算作物系数(Kc)值,分析泥炭
[摘 要] 中华优秀传统文化是滋养社会主义核心价值观的“根”,社会主义核心价值观则是摄取中华优秀传统文化养分迸发而出的“叶”,二者间存在着内在的联系。由此,立足中华传统优秀文化,对培育大学生的社会主义核心价值观具有十分重要的意义。但当代大学生在外来文化的冲击下,在立足中华优秀传统文化、培育社会主义核心价值观的进程中却出现了文化自信心不足、对中华优秀传统文化认知刻板化、割裂二者联系而偏离日常生活等诸
随着互联网的快速发展, IPv4协议原有的设计缺陷制约了互联网的进一步向前发展,IPv6以其采用128位地址长度,几乎可不受限制地提供IP地址等优势缓解了困扰互联网发展的地址危机。
海湾是海洋中最易受人类活动干扰的区域,构建C9泄漏造成的海湾生态系统服务损失评估框架并进行定量评估对维护海湾生态安全具有重要意义.本研究以x海湾C9泄漏事故为例,基于生
近年来,随着人工智能技术的飞速发展,许许多多专家学者开始将注意力集中在人工智能技术与教育的结合上。利用人工智能技术定义全新的教育模式,实现计算机自动求解、自动辅导
为了解中街山列岛海洋保护区内虾类种群特征和生存状况,根据2018年1、4、7和10月该海域拖网调查数据,基于相对重要性指数、Shannon指数、Pianka公式以及Pearson相关系数,对该
排水严重改变泥炭地的环境和生态过程,但对泥炭藓孢子萌发力的影响尚不清楚。在长白山地区白江河泥炭地,分别在优势植物为苔藓的近原始地段和优势植物为小灌木的排水地段,钻取泥炭柱芯为试验材料,逐层测试泥炭理化指标,提取泥炭藓孢子并进行萌发试验,统计孢子数量和萌发力;经过泥炭样品年代测定,建立深度年代关系曲线,研究泥炭藓孢子萌发力对排水的响应和机制。结果表明:整个柱芯对比,近原始地段平均孢子数略高于排水地段
依据国家课程思政建设要求,着重分析2000年后国家级出版社出版的五部高校日语写作教材的范文,具体探讨社会主义核心价值观融入高校日语专业写作教材的现状、存在的问题,日语
当前,随着图像处理技术的发展,生活中出现越来越多的伪造图像,并且以彩色图像为主要篡改对象。拼接作为一种主要的篡改手段,用于篡改图像内容,达到混淆、迷惑和欺骗的目的。针对该