决策树算法应用于基因表达数据分类

来源 :同济大学 | 被引量 : 0次 | 上传用户:jcfasd123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划(HGP)是人类为了认识自己而进行的一项最伟大和最具影响的研究计划,目前已基本完成了人类基因的全序列测定.但问题是面对大量的基因或基因片断序列如何研究其功能,只有知道其功能才能真正体现HGP计划的价值-破译人类基因这部天书.后基因组计划、蛋白组计划等概念就是为实现这一目标而提出的.不同个体基因变异、不同组织、不同时间、不同生命状态等基因表达差异的分析是连接基因组计划和蛋白组计划最关键的一个环节,它不仅能利用基因组计划的研究成果在疾病诊断、药物筛选等领域发挥重要的作用,而且还可为蛋白组计划的实施提供大量非常重要的线索.这一环节既是基因组计划的补充又是蛋白组计划的航标.基因芯片技术就是为实现这一环节而建立的.该文处理的数据是急性白血病基因表达数据.急性白血病主要可以分成两类,分别是急性淋巴细胞白血病Acute Lymphocytic Leukemia(ALL)和急性骨髓性白血病Acute Myelogenous Leukemia(AML).急性白血病的基因表达数据是Golub等于1999年在Science上发表的,是一个72行7129列的矩阵,行为样本,列为基因,即对72个样本分别测其7129个基因的表达值.在该文中,将72个样本放在一起称为全集.Golub等将72个样本分成两个部分.训练集包括38个样本,测试集包括34样本.这套数据是典型的变量数(基因数)p远远大于样本数N的数据矩阵.对于这种少样本多变量的问题,一般的思路是:第一步,筛选基因;第二步,降维(如PCA、PLS和SIR等);第三步运用分类方法(如线性判别式、支持向量积、决策树等)进行建模和预报.其中第一步有很多方法,例如,t统计法、差商法、CV法,但是采用这些不同的方法所选出的基因往往差别非常大.针对上述问题,根据基因表达数据的特点,该文提出了针对这种数据分析的新策略:首先,应用决策树算法来选择尽可能多(甚至全部)的重要变量(基因),对所选择的重要变量(基因)按照一定的策略进行排序,然后对其进行分组(一般是5到11组),进而将这些变量(基因)组合成为组变量.为了验证这个策略的可行性,该文首先对全集选择200个变量,组合成组变量后用主成分分析(PCA)进行投影.然后对训练集选择103个变量,组合成组变量后用主成分回归(PCR)进行建模和预报.所得模型的稳定性得到提高,且预报准确率令人满意.
其他文献
化学修饰电极(CME)可以有效地改变碳材料表面和电子的转移性能,表现出优越的灵敏性和电催化性能。修饰电极广泛应用于生物样品分析、环境监测、食品检测、医疗卫生和临床检验等领域。将氮原子通过C-N键引入到碳材料中,在提高碳材料的选择性和灵敏度方面具有独特的优越性。本论文以温和简单的电化学电解氨化的方法对玻碳电极进行氨化,研究了氨化玻碳电极对生理活性物质抗坏血酸的选择性测定、对亚硝酸盐的电化学行为及其对
美孚公司于20世纪70年代初开发了ZSM-5沸石,ZSM-5沸石具有独特的三维孔道结构,孔径约0.55 nm左右,其热稳定性良好、催化性能高。近年来,ZSM-5沸石多用于石油的催化裂解、择形催化等。而随着催化要求的提高,为了防止积炭,对纳米级的ZSM-5需求量逐渐加大。本文研究目的是为了减小ZSM-5沸石的粒径,主要研究如下:1、硅铝比对颗粒度的影响在其他条件都相同的条件下,只调节硅铝比进行实验,
聚醋酸乙烯(PVAc)目前是用途较广的高分子材料之一,它在轻工、造纸、建筑等工业部门都有看广泛的应用.目前合成聚醋酸乙烯酯多采用乳液聚合、悬浮聚合等合成方法.我们在该实
该论文采用锥形量热仪(CONE)在50KW/m热辐照条件下,并配合TG和极限氧指数(LOI)对膨胀阻燃体系(IFR)进行了研究.主要对典型的IFR体系、协同效应、IFR的改性、与其它无卤阻燃体
有机硅能改性丙烯酸酯乳液的综合性能。但同时在应用方面也存在不少难题。例如:一般带双键的反应型的有机硅在水溶液中容易水解,给聚合反应带来麻烦;如用阻碍性的有机硅单体进行普通乳液聚合反应,涂料的固化时间长,不能充分发挥有机硅的改性作用。为了解决以上两方面的难题,可利用无皂乳液聚合的方法解决以上问题,这方面的研究尚未有文献报道。 通过考察单体配比、反应温度、引发剂用量、反应时间和加料方式等对无皂乳
室温磷光测氧技术是近年来新兴并迅速发展起来的一种简便、灵敏、快速的方法。与传统的测氧方法相比,它在测量过程中不消耗氧,不需要参比电极,不用连接电流,不受外界电磁场干扰,与样品流通速率和搅拌速率无关,响应速度快。因此,近几十年来,磷光传感器的研究十分活跃。 本文就室温磷光氧传感器的发展、常见的类型及其在生物、环保、医药卫生等方面的应用,做了较为详尽的综述。 本实验以钯卟啉作为磷光指示剂,
计算机辅助药物设计(CADD)在药物的先导化合物的发现和开发过程中起着日益重要的作用.通过计算化学和计算生物学方法地运用,可以在原子水平上系统研究药物分子的物理化学性质