决策树膜型在冠心病全基因组关联研究中的应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:dusl520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
冠心病是一类由遗传与环境因素相互作用引起的复杂疾病,是世界范围内死亡和致残的一个重要原因。对冠心病的全基因组关联研究是近年来的研究热点。  以往的冠心病全基因组关联研究大多采用一些经典的统计方法。然而,由于全基因组数据量大,自变量远多于观测数,使得经典方法往往不适用。  本文分析的是来源于WTCCC的冠心病数据,包含了4864名被试者的393474个基因位点的信息和被试者是否患病的0-1变量。其中有1926例冠心病病例和2938名对照,冠心病病例占总观测40%左右。每个位点有三种单核甘酸形态,为无序属性变量。采用决策树方法来分析这批数据对冠心病GWAS的两类问题,一是寻找与冠心病相关联的易感位点,二是预测是否患病。决策树对于这类问题的分析有不少的优点,它是一种非参数方法,所作的先验假设较少;易于处理离散型的数据;自变量之间的相关对建模及预测的影响不大。我们查阅了GWAS的有关文献,未找到使用决策树模型的文献。  针对WTCCC的冠心病数据,本文使用决策树模型挑选出了5个与冠心病相关联的易感位点(自变量),使用多种评估方法得到的准确率都稳定在74%左右,这比已有文献报导的预测准确率要高。
其他文献
学位
带耗散机制的非线性双曲方程是一类重要的发展方程,在数学、物理及其它许多领域中都扮演着重要的角色.本文考虑了两类带不同耗散机制的非线性双曲方程,一类是带非线性对流项
本文主要讨论能量既依赖于位势又依赖于速度的三阶特征值问题:此处公式省略。及其所对应的Bargm ann系统.  首先简单的介绍了一些基本的概念,然后通过引进双Hamilto n算子K,J
学位
近年来,随着国民经济的飞速发展,一维下料问题在建筑、电力、水利等领域获得了越来越广泛的应用。寻找一种最优的下料方案,不仅可以节省原材料,降低生产成本,而且能够为企业带来直
学位