论文部分内容阅读
进入21世纪以来,科学技术高度发达,人们的生活水平不断提高,人类越来越渴望理解自身的起源过程,探索生命的奥秘。随着现代生物技术的不断发展,生物信息学近年来获得了突破性进展,对基因芯片技术的研究也日趋成熟,基因表达数据的获取变得越来越容易,得到的数据也越来越准确。随着人们不断对公布的大量DNA序列进行分析和数据挖掘,基因的神秘面纱也随之揭开。对肿瘤基因表达谱进行深入研究,可以了解肿瘤的发生发展机制,有助于人们发现新的疾病亚型,找出肿瘤早期的诊断指标和治疗靶点,提高复杂疾病诊断的准确率,增强临床治疗肿瘤的有效性。但是由于基因表达谱数据具有高维度,小样本的特点,远远超出传统分析方法所能处理的范畴,现有的相关数据分析和数据挖掘方法已经不能满足实际的需要,如何对其进行有效的处理、挖掘、分析和理解成了生物信息学研究的瓶颈。为此,研究人员将对肿瘤基因表达谱数据的分析从传统的统计学方法逐渐过渡到运用机器学习的方法上,成为生物信息学近年来研究的热点。本文基于生物信息学理论和谱图理论,运用模式识别方法和计算机技术,将反映图结构的特征表示引入到基因表达谱数据的分类中,研究了基于谱图理论的肿瘤基因表达谱数据的特征提取及分类,并对数据的分析结果,算法的性能进行了论证。主要研究内容有:1.详细介绍了基因表达谱的基础知识,对近年来基因芯片表达数据的分类分析方法进行了综述,在分析基因表达谱数据特点的基础上,对分类的研究背景,研究现状,研究意义,现阶段存在的问题以及未来的研究方向进行了探讨。2.提出了一种基于邻接矩阵分解的肿瘤亚型特征提取及分类方法,首先对肿瘤基因表达谱数据以高斯权构造邻接矩阵,然后进行奇异值分解,最后将分解得到的特征向量作为分类特征输入支持向量机进行分类识别。对白血病的两个亚型采用留一法进行试验,取得了良好的效果。3.结合主分量分析方法,对基因表达谱数据样本点构造高斯权邻接矩阵,使样本点具有空间结构信息,SVD分解后,采用特征记分准则进行筛选,找出最大限度区分肿瘤样本与正常样本的主分量作为样本特征,输入KNN分类器进行分类。通过对白血病和结肠癌表达谱数据进行实验,证明了该方法的可行性与有效性。