全基因组关联研究中的多水平模型

被引量 : 5次 | 上传用户:tianyi666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着分子生物学检测技术的不断进步,全基因组关联研究已经成为复杂性疾病遗传致病机制研究最重要的研究手段之一。近年来发表的大量GWAS结果,揭示了与人类各种复杂性疾病或性状相关的大量基因组区域或易感基因,为进一步揭示其发病机制奠定了基础。然而,全基因组关联研究也面临着一系列的挑战,尤其是当前以单个位点分析为主的GWAS统计分析策略存在诸多的局限性。如何充分利用各种与疾病相关的生物学信息,挖掘GWAS高维数据中所蕴藏的信息,探索出一套统计分析策略和方法,已成为完善和发展现有GWAS研究策略的一个统计学难题。为此,本研究通过计算机模拟,从统计学性质的角度,系统地评价了利用先验信息的多水平模型在病例对照设计GWAS中的应用效果;并结GWAS实际资料,从实际应用的角度,探讨了多水平模型分析GWAS资料的策略和方法。第一部分,基于不同参数的二项分布先验信息以及实际GWAS数据的生物学先验信息设计了2个模拟试验,评价不同先验信息对多水平模型应用效果的影响,主要结论如下:(1)在GWAS常采用的1E-5或者1E-7检验水准时,当位点与疾病的关联强度较弱时(OR=1.1),多水平模型的检验效能接近或略高于logistic回归模型,但此时两种方法的效能均较低;随着OR值的不断增加(OR>1.1),多水平模型的检验效能均要高于logistic回归模型。(2)从参数估计效果来看,在不同参数组合和先验信息时,多水平模型的参数估计均方误差(MSE)和区间估计宽度(WCI)均要小于logistic回归模型,结果提示纳入先验信息有助于提高参数估计的效果。(3)在各种参数组合时,多水平模型ROC曲线下面积均要大于logistic回归模型。该结果表明:一方面,多水平模型对于致病位点有更高的检验效能,另一方面,对于“噪声”位点也具有更好的控制能力。第二部分,为考察生物学先验信息的不完整性、先验信息带有额外“噪声”以及无信息先验对于多水平模型在GWAS中应用效果的影响,本研究分别设计了三个模拟试验对生物学先验信息进行了敏感性分析。主要结论如下:(1)多水平模型中是否纳入重要的生物学先验信息将会对其应用效果产生重要影响。如果模型中纳入与疾病最为相关和重要的生物学信息,则在其它相关生物学信息缺失或者为无信息的“白噪声”时,多水平模型的效能均高于logistic回归模型,其ROC曲线下面积也会高于logistic回归模型;反之,如果模型中缺失与疾病最为相关和重要的生物学信息,多水平模型的效能将会明显下降,ROC曲线下面积将会低于logistic回归模型。(2)在GWAS中,通常认为SNPs的遗传效应并不是非常的强(例如OR值通常为1.1,1.2等)。在这种情况下,无论是否纳入与疾病最为相关和重要的生物学信息,多水平模型的效能与传统的logistic回归模型也相差芜几。仅在SNPs位点的遗传效应较强时(例如OR≥1.3),多水平模型如果缺失重要先验信息,其效能则要低于logistic回归模型。(3)在GWAS实际资料分析中,即便构建的先验信息具有一定程度额外“噪声”,多水平模型的效能或者ROC曲线下面积仍要高于或者接近于logistic回归模型。(4)在各种敏感性分析中,无论是先验信息的缺失、增加额外的“噪声”,还是仅采用无先验的“噪声”,均对多水平模型参数估计产生不同程度的影响。但是,在不同情况下,多水平模型参数估计误差均方和区间估计宽度均要小于logistic回归模型。第三部分,基于非小细胞肺癌GWAS实例分析,系统地探讨了利用先验信息的多水平模型在GWAS中的研究策略和分析方法。首先,通过研究实例和基于各种网络生物信息公共数据库,探讨了各种生物学先验信息的利用方法。其次,构建了非小细胞肺癌GWAS实际资料的生物学先验信息矩阵。在该矩阵中,主要利用了各个SNPs位点的遗传保守性得分、基因功能分类以及相近区域内处于强LD SNPs的累计结果。最后,采用利用先验生物学信息的多水平模型进行实例分析。结果表明多水平模型和logistic回归模型在同一染色体区域内均能检测出阳性结果的SNPs位点。多水平模型的点估计略低于logistic回归模型,其区问估计比logistic回归模型更窄。总之,本研究通过计算机模拟研究和实例研究,评价整合利用各种生物学先验信息多水平模型的GWAS研究策略,期望能够更好地控制GWAS高维数据分析的假阳性,并且保证一定检验效能,从统计学角度和生物学角度来识别与疾病有关联的遗传变异。本研究提出的基于先验信息的多水平模型GWAS研究策略和分析方法,较好地回答了生物学实际工作者的问题,值得推广应用。
其他文献
随着科技和现代工业的迅猛发展,以及人民群众对物质生活质量要求的日益提高,大力发展高速列车已经被各级政府确定为重要的工作。随着列车不断提高运行速度,增大载重量,则需对
针对模糊贝叶斯网络模型对战场态势信息不确定性描述与推理方面的局限性,利用直觉模糊属性函数表示贝叶斯网络节点概率以及变量间的因果依赖关系,给出了直觉模糊贝叶斯网络(IFBN
公共体育服务作为我国社会活动的一个重要组成部分,其历史发展是与我国社会发展同步的。人们需要体育作为彰显民族自豪感的途径,也需要将其作为休闲生活中的重要组成部分来参
随着信息化的普及,如今越来越多的企业已经拥有自己的信息管理系统,大型企业的信息系统更是庞大、完善;而对于中小企业来说,拥有一款适合本企业信息系统已经不是什么难事。在拥有
在当今科技大爆炸的信息时代,我们的生活发生了质的变化,科技推动着生产力产生新的知识、新的学科分支,全新的技术手段、使媒体的呈现方式也脱胎换骨。新媒体的新媒介手段不断涌
随着2001年中国森林生态效益补助基金的试点开始,森林生态效益补偿政策实施的机制、政策实施的效果等问题一直受到学界的关注。2012年的中央一号文件提出“研究建立公益林补偿
大众文化在当今社会迅速蔓延,似有经久不息之势。大众文化在广泛流行普及,体现时代特色的同时,也存在着负面效应。在大众文化背景下,认清文学经典的重要地位,明确阅读文学经
目的分析济源市2012-2016年游泳池水水质卫生状况,为制定科学有效的卫生监督提供依据。方法按照GB/T 18204.2-2014、GB/T 5750-2006进行游泳池水检测,依照GB 9667-1996对水样
随机光纤激光器是一种新型的无腔激光器件,基于光纤中微弱的后向散射光在传输过程中被不断放大的物理机制。它具有稳定性好、结构小巧简单(无需腔镜)、抗振以及空间不相干等
稀疏和低秩问题是近年来在图像理解领域中研究的热点,它符合人类感知系统中的稀疏编码策略,能够捕捉到数据内在的特性,因此得到了众多研究者的关注。本文围绕这两个方向,针对