论文部分内容阅读
真核生物的基因组复杂性远远高于原核生物,其复杂性难以用基因组的大小、蛋白质编码基因的数量等来评估,但是,一个物种的基因组可以编码的不同种类的蛋白质的数量可能是一个较好的评估标准。越来越多的研究表明可变剪接是利用有限数量的基因产生大量不同的蛋白质的有效机制,是基因组复杂性的重要体现。本文以人类基因组为例,提出了研究可变剪接及其规模的新方法。首先,我们开发了可变剪接转录本预测软件(ALTSCAN),该软件仅利用DNA序列,尽可能完整地预测DNA序列上所有可能存在的蛋白质编码结构。然后,基于ALTSCAN预测结果,使用大量来自不同组织和细胞系的转录组测序数据检测到了约30,000个目前公共数据库中未包括的蛋白质编码转录本。大规模实时定量PCR验证结果表明这些转录本的预测准确率高达84.1%。基于这些转录本,我们通过乳腺蛋白质组学数据鉴定了36个新的蛋白质的存在性。通过和现有数据库比较,我们估计人类的蛋白质编码转录本的数量至少在20万以上。基因组复杂性的另一方面是同一物种内不同个体间的基因组差异。单独一个个体不能准确地反映出它所属物种所能产生的不同种类蛋白质的数量,我们需要进一步考虑不同个体基因组之间的差异。个体间的差异主要包括单核苷酸变异、结构变异以及本文主要关注的基因有无变异。基因有无变异指某些基因仅存在于该物种的部分个体中,可以通过泛基因组方法进行研究。基因有无变异广泛地存在于细菌中,在真核生物中的研究刚刚起步。真核生物基因组较大,其个体基因组测序成本较高,限制了泛基因组研究中的个体数量,导致无法准确地进行基因有无变异的检测。本文首先描述了一种真核生物泛基因组研究的新方法(EUPAN)。该方法通过将个体基因组的测序数据比对到泛基因组序列上计算基因有无变异。由于目前人类个人基因组高深度测序数据较少,本文将EUPAN方法应用于亚洲栽培稻个体基因组测序数据。首先,本文发现了12,465个不存在于粳稻参考基因组(IRGSP-1.0)中的新基因。其次,本文发现亚洲栽培稻物种中37.7%以上的基因家族存在有无变异,对于一个个体而言,其基因组中有20%以上是“非必需”基因家族。此外,本文的结果表明基因有无变异可以准确地反映个体间的进化关系。最后,本文证明基因有无变异可以有效地解释个体间表型的差异。该研究揭示了亚洲栽培稻个体基因组间广泛存在的基因有无变异,同时表明基因有无变异在目前真核生物的研究中被大大低估了。泛基因组是基因组复杂性的重要组成部分。综上所述,本文从个体基因组和群体基因组的角度研究了真核生物基因组复杂性的两个重要维度,即可变剪接和泛基因组,为进一步理解真核生物基因组的复杂性奠定了基础。