论文部分内容阅读
全基因组关联分析(Genome Wide Association Study,简称GWAS),主要是在人类的全体基因组中寻找基因序列变异,并从中找出与疾病或者性状相关的单核苷酸多态。现阶段,GWAS 的研究已经获得了很大成功,并在生物领域的研究中有着广泛的应用。但GWAS发现的常见变异所能解释的疾病遗传度远远低于预期。例如,科研人员整合了十五万个个体数据,找到的七十多个单核苷酸多态(Single Nucleotide Polymorphism,简称SNP)位点仅能解释10%左右的遗传力。GWAS 之所以不能完全揭示疾病遗传因素的根本原因在于常见变异对疾病的影响是有限的,罕见变异对复杂疾病有很强的影响力,能够解释大部分缺失的遗传力。如何从海量的基因测序数据中快速高效的找到与疾病相关联的罕见变异已经成为全基因组关联分析的重中之重。 本文首先在功效加和(Sum Power of Score,简称SPU)检验方法的基础上,对原有的SPU方法进行了改进。其次,在单个罕见变异与所研究的疾病无关联的条件下,推导出每个罕见变异得分统计量的具体表达式,并在该统计量的基础上参考精确检验结合 P 值方法,提出了一种计算权重的方法。将该计算权重的方法与改进后的SPU方法进行结合,提出本文的检验方法。同时,本文做了大量的模拟仿真研究,通过设置样本量、罕见变异作用方向、干扰变异的个数以及罕见变异之间连锁不平衡水平来模拟各种可能发生的遗传情景,并探究在这些遗传情境中本文提出方法的第一类错误率和检验功效。在模拟研究中,使用逻辑回归模型产生模拟数据集,并利用 R 语言进行编程实现。最后,将本文所提出的检验方法应用到真实的疾病数据中,进一步来验证本文所提出解决方案的有效性。 从模拟结果能够看出,本文提出的方法在各种模拟的遗传情景中,第一类错误率在指定的显著性水平上下波动,说明本文提出的检测方法是合理的。并且在有干扰SNP存在的情况下,相对于传统的检测方法,本文方法的检验功效有很好的提升与改进。当关联的罕见变异对复杂性疾病的影响方向不一致时,本文提出的检测方法能够识别出罕见变异。最终,利用真实的疾病数据进行实验分析验证时,检测结果也说明本文所提出的方法能够有效准确地识别出致病基因,证实了本文的方法是可行的。将该方法应用到科学研究中,能够揭示疾病的遗传致病病理,解释复杂疾病的遗传机制,为治疗、预防复杂疾病提供理论基础。