论文部分内容阅读
油菜是世界上第二重要的油料作物,水稻是最主要的粮食作物之一,虽然它们都已获得参考基因组,但是单个参考基因组不能表征作物种内遗传多样性。本研究通过三代测序技术分别构建了八个油菜和两个水稻高质量参考基因组,并以此为基础分析了油菜的亚基因组起源和基因组加倍事件,同时鉴定了油菜种内广泛的遗传变异,构建了油菜种内基因索引和泛基因组,进一步解析了结构变异与多个重要农艺性状的联系,另外也分析了水稻的种内遗传变异和基因家族的扩展,并构建了综合性籼稻生物信息平台。主要研究结果如下:1.八个高质量甘蓝型油菜参考基因组的构建本研究利用Pac Bio、Hi-C、Bio Nano和Illumina测序技术完成了8个甘蓝型油菜基因组组装,其中包括2个春性油菜、2个冬性油菜和4个半冬性油菜,代表了全球范围内主要的油菜亚群。8个从头组装的甘蓝型油菜基因组均达染色体水平,contig N50为2.1-3.1 Mb。核心基因集数据、BAC末端测序数据、Bio Nano图谱、Hi-C数据和RNA-Seq等数据的独立验证结果,都表明了8个参考基因组具有很高的准确性和完整度。基因组注释的结果表明,8个甘蓝型油菜基因组含有94,586-100,919个编码基因,转座元件(TE)序列占全基因组的56.8-58.2%。同时发现C亚基因组长末端重复反转录转座子(LTR-RT)的扩增开始早且持续时间长,导致了C亚基因组比A亚基因组大。甘蓝型油菜的Hi-C图谱具有明显的A/B区室特征,其中B区室集中在着丝粒区域,而A区室主要分布在具有较高基因密度的染色体臂上。2.甘蓝型油菜的种内遗传变异分析和泛基因组构建基于单拷贝直系同源基因构建了十字花科的系统发育树,结果显示相同生态型的品种聚在一起,且人工合成品种与二倍体祖先亲缘关系更近。通过同义替代率分析估算了甘蓝型油菜的基因组加倍和分化事件的发生时间,结果表明甘蓝型油菜形成于约10,000年前白菜和甘蓝的杂交,白菜与甘蓝的分化发生在三百万年前(MYA),芸薹属特有的三倍化事件发生在11 MYA,拟南芥在约14 MYA与芸薹属分化。我们分析了210个甘蓝型油菜品种、199个白菜品种、119个甘蓝品种和前面已组装的8个甘蓝型油菜品种的单核苷酸多态性(SNP)信息,确定了甘蓝型油菜的A亚基因组起源于芜菁,但是C亚基因组的起源仍不明确。通过与中双11(ZS11)基因组比较,在其他7个甘蓝型油菜基因组中鉴定了7.5-15.6 Mb的倒位,39.7-49.1 Mb的易位,77.2-149.6 Mb的存在/缺失变异(PAV)以及大量的SNPs和小的插入/缺失(In Dels),这些变异对超过9.4%的编码基因产生了大效应影响。通过结合8个参考基因组和1,688份油菜品种的重测序数据,我们构建了甘蓝型油菜泛参考基因组,总长约1.8 Gb,包含121,789个编码基因。在基因家族水平上,油菜泛基因组包含105,672个基因家族。在这些基因家族中,约56%是核心基因家族,约42%是非必须基因家族。特异基因家族在“对刺激或胁迫的反应”和“蛋白质磷酸化”等功能上富集。为了方便不同油菜品种之间的基因比较和目标基因的检索,首次构建了甘蓝型油菜的基因索引,包含88,345个编码基因的映射信息。这些数据可以通过甘蓝型油菜泛基因组数据库开放式获取,为油菜遗传改良提供丰富的资源。3.基于PAV-GWAS解析表型差异的遗传基础为了探索结构变异对性状差异的贡献,对角果长、粒重和开花期三个与产量相关的重要性状进行了全基因组关联分析(GWAS)研究。在以ZS11为供体的巢式作图群体中对27,216个PAVs进行了分型。以此为基础,利用基于PAV的全基因组关联分析(PAV-GWAS)确定了导致角果长、粒重和开花期差异的结构变异,表明在鉴定性状关联位点中PAV-GWAS能够作为SNP-GWAS的有力补充。深入分析表明,3个FLOWERING LOCUS C(FLC)基因上的PAVs与甘蓝型油菜的开花期和生态型分化有着密切关系。尤其是Bna A10.FLC基因的结构变异与生态型划分高度相关,这为甘蓝型油菜生态型分化的遗传基础提供了新的见解。4.籼稻参考基因组的构建利用Pac Bio、Bio Nano和Illumina测序技术对籼稻ZS97和MH63进行全基因测序,通过组装获得了高质量的第二版籼稻参考基因组,并分别注释了60,897和60,123个蛋白编码基因。更完整的参考基因组有利于全面解析基因组中重复元件和LTR-RT插入爆发事件,在籼稻基因组中鉴定了约45%的重复序列并观察了它们的分布特征。在ZS97和MH63基因组中鉴定了128万个SNPs,32万个In Dels,以及23.38-24.83 Mb的PAVs。受这些变异影响,ZS97和MH63基因组中分别有6,108个和6,270个non-TE基因被划分为高度差异基因。Chr11染色体末端出现PAVs热点区域,这可能和该区域丰富的抗性基因簇和近期基因重复有关。为了便于水稻研究社区对新一代籼稻参考基因组的使用,本研究中构建了籼稻基因组生物信息平台,并在其中集成了水稻多组学资源和计算工具。