论文部分内容阅读
全基因组关联分析对人群样本进行高密度遗传标记,通过开展多中心、大样本的临床试验,反复验证基因型与疾病表型的关联,以期找到影响疾病的遗传标记。但是对于大部分的复杂疾病,常见变异的单核苷酸多态性(SNP)仅能解释不到10%的表型变异,这一现象被称为“遗传性缺失”。针对“遗传性缺失”的问题,在基因组范围内将众多常见变异的SNP联合在一起进行分析,就有可能解释大量的复杂表型变异。因此,与传统全基因组关联分析相比,基于单倍型的关联分析更有助于揭示复杂疾病的遗传机制。但随着SNP位点数目不断增多,单倍型种类急剧增加,每种单倍型的群体频率都很低。这种高维、海量、稀疏的数据集,给统计分析带来很大的挑战,为精确定位致病位点带来很大的困难。本论文对单倍型关联分析进行了数据统计学方面的探讨和研究,通过开发新的关联方法有效地对数据进行降维,以实现低成本、高效地找到更多遗传标记与复杂疾病的关联。本论文提出了一个基于隐马尔科夫模型和贝叶斯回归模型的单倍型关联分析方法,并验证了它的统计功效。该方法首先建立一个双层隐马尔科夫模型来拟合连锁不平衡,从而推断出祖先型单倍型以及这些祖先型单倍型在每个个体的每个位点上的载量;然后计算出局部单倍型共享(即两个二倍体的个体继承同一个祖先型单倍型的概率);最后采用贝叶斯回归模型对局部单倍型共享与表型进行关联分析。该方法的优势在于克服了单倍型分型引入的不确定性;避免使用固定窗宽作为单倍型的宽度;与单个SNP分析的检验数量相同。在优化运算性能方面,论文将时间复杂度从二次降低为线性,能够胜任数万样本上数百万位点的大数据分析。我们开发了相应的算法软件,应用该软件分析了Wellcome Trust Case Control Consortium公共数据集的7种复杂疾病数据,发现了7个基因区域与5种疾病表型之间的8个新关联。其中GRIK4基因,编码一种谷氨酸门控离子通道家族的蛋白质,同时与冠心病和类风湿关节炎都有强关联。论文在上述基础上引入了贝叶斯矩阵回归模型,将单倍型关联分析方法从单一表型分析拓展到适用于多个表型的联合分析,并开发出第二版算法软件。应用该软件分析一组三价流感疫苗免疫应答的数据,新发现了2个显著的反式作用数量性状基因座(Trans-acting eQTL)。第一个是干扰素α结合蛋白基因IFNAR2上的SNP,与嗅觉受体基因OR2AG1表达的关联;第二个是降钙素受体基因CALCR上的SNP,与干扰素α诱导蛋白基因IFI27表达的关联。本论文又将贝叶斯理论应用到无创产前筛查,开发了基于贝叶斯推断的无创产前胎儿染色体筛查方法,并开发了相应的商用算法软件。降低数据量测试证实贝叶斯方法的统计功效显著优于传统Z检验。在临床试验中,我们分析了3405例临床孕妇样本,发现了9例(共51例阳性)传统检验方法的假阳。与传统Z检验方法相比,该方法的优势在于有效利用了胎儿比例的先验信息,提高了筛查的准确性;降低对测序数据量的要求,检测成本更低;能够计算阳性预测值和阴性预测值,有着更好的临床指导意义。