基于邻接谱分解的基因表达谱数据分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:trung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪以来,科学技术高度发达,人们的生活水平不断提高,人类越来越渴望理解自身的起源过程,探索生命的奥秘。随着现代生物技术的不断发展,生物信息学近年来获得了突破性进展,对基因芯片技术的研究也日趋成熟,基因表达数据的获取变得越来越容易,得到的数据也越来越准确。随着人们不断对公布的大量DNA序列进行分析和数据挖掘,基因的神秘面纱也随之揭开。对肿瘤基因表达谱进行深入研究,可以了解肿瘤的发生发展机制,有助于人们发现新的疾病亚型,找出肿瘤早期的诊断指标和治疗靶点,提高复杂疾病诊断的准确率,增强临床治疗肿瘤的有效性。但是由于基因表达谱数据具有高维度,小样本的特点,远远超出传统分析方法所能处理的范畴,现有的相关数据分析和数据挖掘方法已经不能满足实际的需要,如何对其进行有效的处理、挖掘、分析和理解成了生物信息学研究的瓶颈。为此,研究人员将对肿瘤基因表达谱数据的分析从传统的统计学方法逐渐过渡到运用机器学习的方法上,成为生物信息学近年来研究的热点。本文基于生物信息学理论和谱图理论,运用模式识别方法和计算机技术,将反映图结构的特征表示引入到基因表达谱数据的分类中,研究了基于谱图理论的肿瘤基因表达谱数据的特征提取及分类,并对数据的分析结果,算法的性能进行了论证。主要研究内容有:1.详细介绍了基因表达谱的基础知识,对近年来基因芯片表达数据的分类分析方法进行了综述,在分析基因表达谱数据特点的基础上,对分类的研究背景,研究现状,研究意义,现阶段存在的问题以及未来的研究方向进行了探讨。2.提出了一种基于邻接矩阵分解的肿瘤亚型特征提取及分类方法,首先对肿瘤基因表达谱数据以高斯权构造邻接矩阵,然后进行奇异值分解,最后将分解得到的特征向量作为分类特征输入支持向量机进行分类识别。对白血病的两个亚型采用留一法进行试验,取得了良好的效果。3.结合主分量分析方法,对基因表达谱数据样本点构造高斯权邻接矩阵,使样本点具有空间结构信息,SVD分解后,采用特征记分准则进行筛选,找出最大限度区分肿瘤样本与正常样本的主分量作为样本特征,输入KNN分类器进行分类。通过对白血病和结肠癌表达谱数据进行实验,证明了该方法的可行性与有效性。
其他文献
学位
本课题以CT技术为核心,以投影重建算法作为研究对象,以最优的再现重建图像为目标。针对CT图像(检测对象)寻找设计出较优的重建算法。本文应用雷登(Radon)变换的原理,阈值降噪
随着无线通信系统能量消耗的高速增长以及全球变暖等问题的凸现,提高系统的能量效率(EE)成为无线通信领域的一个研究热点。中继技术通过中继节点的协助来完成两个信源节点的
Object recognition has been extensively studied in the history of computer vision as one of the most fundamental problems.Among years,the research objective has
随着海洋开发的发展和国防建设的需要,我国对水下无线信息传输技术的要求越来越迫切。水声通信是目前实现水下中、远程无线信息传输的唯一手段,但水声信道是一个十分复杂的时空
网络编码是2000年由R.Ahlswede等人首次提出来的,它可以达到由最大流最小割定理得到的网络的最大传输容量。网络编码允许中间节点对接收到的数据包进行编码,而不是像传统通信
宽带卫星网络作为地面网络的补充和延伸,是未来空天地一体化网络系统的重要组成部分。然而卫星通信的带宽是有限的,如何在有限资源下提高信道利用率并满足用户服务质量是多址
近年来,智能光网络的发展引入了一部分自动控制功能,实现了自动连接管理。随着传输速率的不断升级,在透明传送过程中,温度变化、色散、偏振模色散以及增益抖动等各种损伤的积累无
TD-HSUPA是对TD-SCDMA上行链路数据分组业务的演进和发展,它是TD-SCDMA在TD-HSDPA后在标准上的又一个重大突破。随着TD-HSUPA技术产品化步伐的加快,为了适应TD-SCDMA产业化的发