偏最小二乘法在肿瘤基因表达谱数据分析中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:huyuxuan0601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术是随着“人类基因组计划”而发展起来的一门新兴技术,能同时对大量的遗传信息进行高效、快速的检测,因而被广泛的应用于研究肿瘤发生发展过程中的基因表达情况。由此产生的基因表达谱数据具有小样本、高维度的特点,给数据分析提出了新的挑战。如何选择合适的方法进行肿瘤样本分类,提取尽量少的具有分类识别能力的特征基因,认识肿瘤产生和发展的机制并最终达到临床治疗的目的,是当前面临的关键性问题。因此,本文将研究重点放在利用偏最小二乘法法分析肿瘤基因表达谱数据、选择分类特征基因上,   主要做了如下工作:   (1)对偏最小二乘法的数据降维性能进行了评价。利用SVM验证提取的PLS成分对样本的分类效果。与2种常用的降维算法主成分分析(PrincipalComponents Analysis,PCA)和随机森林(Random Forest,RF)进行比较。在实验所选的5组肿瘤数据上的结果显示,偏最小二乘法是一种处理高维数据的有效方法。   (2)提取的PLS成分虽然能很好的将肿瘤样本分类,但是很难对成分进行解释,不能直接得到相关的特征基因,因此本文提出了一种直接利用偏最小二乘提取特征基因的方法--逐步回归提取基因子集法。在提取PLS成分过程中,得到所有参与实验的基因的权重,计算所有大于0的权重的平均值w1,和所有小于0的权重的平均值w2,将w1和w2作为阈值,权重大于w1或者小于w2的基因取出继续下一步实验。在每一步提取过程中都用提取的基因子集进行分类验证,使得偏最小二乘法能直接进行特征提取。将这种方法用于北京肿瘤医院提供的两组肿瘤数据中,分别得到5个和8个特征基因,并进行了样本分类验证,取得了很好的效果。   (3)将偏最小二乘法与遗传算法结合,改善了传统偏最小二乘法的内部映射机制,将遗传算法强大的非线性拟合能力引入到偏最小二乘算法中,形成一个更加稳健的算法模型。将遗传算法-偏最小二乘(GA-PLS)应用于两组胃癌表达谱数据,提取55个和53个被选择频率较高的基因,并用SVM验证所选特征基因的分类效果。   (4)由于每种提取特征基因的方法都有其局限性,因此,本文最后将逐步回归提取基因子集法、GA-PLS方法和微阵列显著性分析方法分别用于肠型胃癌和弥漫型胃癌的数据表达谱中,各自提取出72,57,76个特征基因子集,然后取这3个子集的交集,最终得到4个特征基因:ZNF583、UBE2CBP、RPE65、LOC152742。在文献中能找到关于前三个基因的介绍,第四个基因目前还没有人研究。用这4个基因对样本进行分类的正确率为93.94%并且用这四个基因做了Gene Ontology分析。
其他文献
本文主要阐述了电能电量计量及管理系统上位机软件的设计和实现,如何利用计算机技术对电表信息和电表数据进行管理和操作。对于数据采集模块来说,我们采用Borland JBuilder 2
调速器作为发动机转速控制的核心部件,能根据发动机负荷变化情况自动地调节发动机循环供油量,保持发动机的转速稳定,从而保证发动机具有良好的工作性能。目前,小型汽油发电机上的调速器普遍采用的是机械式调速器,由于机械调速器存在传动挠性、惯性、摩擦阻尼大等固有缺陷,因此它在调速时必然存在瞬时调速率差和稳定时间长等缺点,已不能适应在发电机中对汽油机转速稳定性日益提高的要求。为了解决机械调速器在调节发电机时存在
随着我军科技强军步伐的加快,在新时期军事变革要求下,作为军队作战和后勤支援行动基础的军事物流,对确保我军完成各项作战任务具有重要的战略意义。军事物流的目的就是配合
燃气发电机是一种利用液化气、天然气等可燃性气体作为发电机动力的高效新能源发电机。燃气发电技术的推广和使用一方面可以逐步改善我国以煤炭为主的能源格局现状,一方面能够
学位
本文针对速度传感器在交流调速系统中的应用进行分析,发现其在成本、安装、维护、非线性和低速性能等方面的原因,影响到永磁同步电机调速系统的简单性、廉价性及系统的可靠性问
网络化控制系统是一种前馈和反馈通道由网络连接的控制系统,以其众多的优点正逐渐取代传统控制系统,在很多领域内得到广泛应用,如航空航天、无线通信、工业系统、智能交通等
由于传统的机械式传感器环境适应性差、维护困难,且降低了系统可靠性,无速度传感器矢量控制成为近年来永磁同步电机交流伺服领域的研究热点。   本文在基于id=0转子磁场定向
电子电路表面组装技术(Surface Mount Technology,SMT)作为先进电子组装的基础技术,它包括设计、工艺、元器件、基板、设备、材料、测试、管理等多项技术,涉及到先进设计与制造
如今是无人机飞速发展的年代,无论是军用还是民用,无人机越来越体现出其巨大的实用价值,随着应用领域越来越广泛,人们对无人机的要求也越来越高,从基本的飞行控制到智能自主
工业过程中控制性能的监测和评估已越来越受到关注,而绝大部分控制回路采用PID控制器,很有必要研究它的控制品质。本文研究了两种PID控制系统性能评价方法。第一种方法基于Ha