论文部分内容阅读
随着分子生物学检测技术的不断进步,全基因组关联研究已经成为复杂性疾病遗传致病机制研究最重要的研究手段之一。近年来发表的大量GWAS结果,揭示了与人类各种复杂性疾病或性状相关的大量基因组区域或易感基因,为进一步揭示其发病机制奠定了基础。然而,全基因组关联研究也面临着一系列的挑战,尤其是当前以单个位点分析为主的GWAS统计分析策略存在诸多的局限性。如何充分利用各种与疾病相关的生物学信息,挖掘GWAS高维数据中所蕴藏的信息,探索出一套统计分析策略和方法,已成为完善和发展现有GWAS研究策略的一个统计学难题。为此,本研究通过计算机模拟,从统计学性质的角度,系统地评价了利用先验信息的多水平模型在病例对照设计GWAS中的应用效果;并结GWAS实际资料,从实际应用的角度,探讨了多水平模型分析GWAS资料的策略和方法。第一部分,基于不同参数的二项分布先验信息以及实际GWAS数据的生物学先验信息设计了2个模拟试验,评价不同先验信息对多水平模型应用效果的影响,主要结论如下:(1)在GWAS常采用的1E-5或者1E-7检验水准时,当位点与疾病的关联强度较弱时(OR=1.1),多水平模型的检验效能接近或略高于logistic回归模型,但此时两种方法的效能均较低;随着OR值的不断增加(OR>1.1),多水平模型的检验效能均要高于logistic回归模型。(2)从参数估计效果来看,在不同参数组合和先验信息时,多水平模型的参数估计均方误差(MSE)和区间估计宽度(WCI)均要小于logistic回归模型,结果提示纳入先验信息有助于提高参数估计的效果。(3)在各种参数组合时,多水平模型ROC曲线下面积均要大于logistic回归模型。该结果表明:一方面,多水平模型对于致病位点有更高的检验效能,另一方面,对于“噪声”位点也具有更好的控制能力。第二部分,为考察生物学先验信息的不完整性、先验信息带有额外“噪声”以及无信息先验对于多水平模型在GWAS中应用效果的影响,本研究分别设计了三个模拟试验对生物学先验信息进行了敏感性分析。主要结论如下:(1)多水平模型中是否纳入重要的生物学先验信息将会对其应用效果产生重要影响。如果模型中纳入与疾病最为相关和重要的生物学信息,则在其它相关生物学信息缺失或者为无信息的“白噪声”时,多水平模型的效能均高于logistic回归模型,其ROC曲线下面积也会高于logistic回归模型;反之,如果模型中缺失与疾病最为相关和重要的生物学信息,多水平模型的效能将会明显下降,ROC曲线下面积将会低于logistic回归模型。(2)在GWAS中,通常认为SNPs的遗传效应并不是非常的强(例如OR值通常为1.1,1.2等)。在这种情况下,无论是否纳入与疾病最为相关和重要的生物学信息,多水平模型的效能与传统的logistic回归模型也相差芜几。仅在SNPs位点的遗传效应较强时(例如OR≥1.3),多水平模型如果缺失重要先验信息,其效能则要低于logistic回归模型。(3)在GWAS实际资料分析中,即便构建的先验信息具有一定程度额外“噪声”,多水平模型的效能或者ROC曲线下面积仍要高于或者接近于logistic回归模型。(4)在各种敏感性分析中,无论是先验信息的缺失、增加额外的“噪声”,还是仅采用无先验的“噪声”,均对多水平模型参数估计产生不同程度的影响。但是,在不同情况下,多水平模型参数估计误差均方和区间估计宽度均要小于logistic回归模型。第三部分,基于非小细胞肺癌GWAS实例分析,系统地探讨了利用先验信息的多水平模型在GWAS中的研究策略和分析方法。首先,通过研究实例和基于各种网络生物信息公共数据库,探讨了各种生物学先验信息的利用方法。其次,构建了非小细胞肺癌GWAS实际资料的生物学先验信息矩阵。在该矩阵中,主要利用了各个SNPs位点的遗传保守性得分、基因功能分类以及相近区域内处于强LD SNPs的累计结果。最后,采用利用先验生物学信息的多水平模型进行实例分析。结果表明多水平模型和logistic回归模型在同一染色体区域内均能检测出阳性结果的SNPs位点。多水平模型的点估计略低于logistic回归模型,其区问估计比logistic回归模型更窄。总之,本研究通过计算机模拟研究和实例研究,评价整合利用各种生物学先验信息多水平模型的GWAS研究策略,期望能够更好地控制GWAS高维数据分析的假阳性,并且保证一定检验效能,从统计学角度和生物学角度来识别与疾病有关联的遗传变异。本研究提出的基于先验信息的多水平模型GWAS研究策略和分析方法,较好地回答了生物学实际工作者的问题,值得推广应用。