论文部分内容阅读
群体遗传学是一门定量地研究生物进化机制的遗传学科,它为揭示进化原理和进化过程提供坚实的理论依据。人口历史推断是群体遗传学中至关重要的问题,有利于我们更好地了解人类的起源与发展。群体迁移,群体混合以及群体扩张等人口历史事件会对基因的遗传变异产生巨大影响,在遗传数据中留下很多有用的信息,因此我们可以利用这些信息推断人口历史。随着测序技术和计算方法的不断发展,我们可以获得越来越多的遗传特征,如何更有效地利用遗传特征推断人口历史是一个非常有挑战性的问题。在本文中,我们通过构建随机模型刻画遗传特征的产生和变化过程,利用统计推断的方法实现人口历史的重构。本文主要考虑两种与基因重组密切相关的遗传特征——祖先片段和IBD片段,研究基于这两种特征推断人口历史的随机模型与方法。本文的第一项工作是研究基于祖先片段推断人口混合历史的随机模型与方法。现在已有的推断人口混合历史的方法都有一个缺陷:在推断混合历史时,需事先设定一个混合模型,然后在设定的模型下进行推断。但在实际应用中,真实的混合模型是未知的,如果设定的混合模型与真实模型相差很大,则推断出的混合历史往往不准确。为了解决这个问题,本文给出一般混合模型的刻画,并首次推导一般混合模型下祖先片段长度的理论分布,为人口混合历史的推断提供理论基础。基于祖先片段长度的分布,我们开发了两种推断人口混合历史的方法,第一种方法——AdmixInfer方法,实现三个经典混合模型下最优模型的选择以及混合历史中参数的估计。我们通过大量的模拟数据验证了AdmixInfer方法的有效性和稳定性,同时在真实数据的应用中,AdmixInfer方法也有很好的表现。更进一步,为了解决一般混合模型下人口混合历史的推断问题,我们开发了第二种方法——MultiWaveInfer方法,采用似然比检验和EM算法估计混合波数以及混合历史中的参数。同样的,大量的模拟数据验证了Multi WaveInfer方法的有效性和稳定性。本文的另一项工作是研究基于IBD片段推断人口迁移历史的随机模型与方法。IBD片段已被证实非常适合重构近代的人口历史。利用IBD片段推断人口历史,关键在于构建人口模型并计算溯祖时间的分布。前人利用IBD片段推断人口迁移历史时,忽略了溯祖时间之前溯祖事件的信息以及溯祖事件与迁移事件的相互影响,使得溯祖时间的分布不准确。为弥补这个缺陷,本文提出了一种新的推断人口迁移历史的方法-——MIBD方法,采用带结构的溯祖理论,用一个连续时间的马氏过程描述两个群体迁移模型下的溯祖过程,并利用Kolmogorov向后方程计算溯祖时间的分布。在此分布下,我们可以估计IBD共享率,进而推断人口的迁移历史。模拟结果显示,在两个群体的迁移模型下,MIBD方法估计的IBD共享率是非常稳定和准确的。