论文部分内容阅读
基因复制可为物种的演化提供遗传基础。复制事件的产生主要有三种类型:染色体非对等交换、转座复制以及全基因组复制。复制基因有三类演化结果,即新功能化、亚功能化和丢失。通常全基因组复制产生的复制基因经新功能化或亚功能化进化出不同的功能,为植物的生长、形态建成以及生物、非生物胁迫抗性等提供新的适应性,对物种的演化有着重要影响。玉米基因组较庞大,且复制基因多,现有研究推测玉米经历了至少三次全基因组复制事件,分别是单双子叶植物分化以前、禾本科植物出现以前以及玉米和高粱分化之后的全基因组复制事件,发生时间分别在大约110百万年前、50百万年前以及12百万年前。为全面鉴定玉米基因组中的复制基因,弄清其复制方式及全基因组复制基因产生的时间,并明确复制基因对间的差异分化,特别是表达和功能上的差异,进而探讨复制基因、尤其是不同全基因组复制事件产生基因对玉米重要性状的形成与演化的影响,本研究通过对玉米、高粱、水稻和拟南芥基因进行同源性聚类、共线性分析及系统发育分析等,系统鉴定了玉米基因组中的复制基因,明确了其产生方式,并分析了不同复制方式和全基因组复制中不同复制事件产生的基因间的差异,包括序列差异、表达和功能分化差异,以及这些复制基因对关键性状演化的影响等。研究结果可深入揭示玉米基因组的组成和结构,玉米重要性状相关基因的起源和功能,同时也为进一步探讨玉米重要经济性状的形成、基因组的演化等奠定基础。主要研究结果如下:1、通过基因的同源性分析、聚类分析、染色体共线性分析、Ks分布分析以及系统发育分析,在全基因组水平对玉米复制基因进行了鉴定。玉米基因组中的复制基因共有28911个,占玉米基因的73%。其中,鉴定到玉米基因组保留基因中共有21654个基因与全基因组复制相关,占基因总数的55%。三次全基因组复制事件Maize WGD(玉米和高粱分化后自身一次的全基因组复制)、Pre-grasses WGD(禾本科植物分化前全基因组复制)和Pre-monocots WGD(单双子叶植物分化前全基因组复制)产生的基因分别有9606、5817和2922个,占玉米基因的比例分别为24%、15%和7%。2、复制基因的序列差异分析,比较了复制基因与单拷贝基因,不同复制方式产生基因及不同基因组复制事件产生基因间的基因长度、5’UTR、3’UTR、编码区、外显子和内含子长度及外显子数量,发现全基因组复制基因具有更加丰富的基因组件。单拷贝基因最长,平均长度为5364bp,其次为全基因组复制基因,均值为4495bp。玉米基因的编码区平均长度为1096bp,全基因组复制基因和单拷贝的均值分别为1314bp和1206bp。Pre-monocots WGD,Pre-grasses WGD,Sorghum-Maize和Maize WGD不同事件复制基因之间的比较,发现Pre-monocots WGD基因具有更多的可变剪切数量,更长的基因区,CDS以及内含子长度。玉米全基因组复制基因对玉米GC分布的双峰性贡献较大;不同全基因组复制事件的比较发现Pre-grasses WGD基因普遍具有较高的GC含量。SNP分析发现玉米复制基因具有较少的平均SNP位点数量。3、表达和功能差异分析发现玉米复制基因具有更高的平均表达量,保留的复制基因主要参与发育和胁迫响应。全基因组复制基因的平均转录值(log2(FPKM))为4.1,单拷贝基因的平均值为4.6;而无同源、串联复制、其它复制类型基因分别为1.22、1.57和1.66。组织特异表达的基因大部分来自于复制基因,其中全基因组复制基因共有9902个,占组织特异表达基因数量的61%。分析组织特异表达基因在不同全基因组复制事件之间的分布差异,其中Maize WGD、Maize-Sorghum、Pre-grasses WGD和Pre-monocot WGD基因数量分别占比37%、16%、33%和12%。基因本体分析也发现玉米全基因组复制基因主要参与发育和胁迫反应。Maize WGD产生的复制基因富集的本体注释包括细胞核、质膜、DNA结合、转录因子活性以及非生物刺激的反应等。Pre-grasses WGD基因富集于对生物胁迫或非生物胁迫压力的响应,细胞死亡,花发育以及花粉-雌蕊互作等。代谢通路分析也发现玉米全基因组复制基因主要参与发育和抗逆反应。Maize WGD基因的代谢通路富集到核糖体、m RNA途径、剪接体,MAPK信号通路、植物激素信号转导等。Pre-grasses WGD基因富集到氨基酸代谢、糖和脂肪酸代谢以及代谢产物合成,淀粉和蔗糖代谢等。4、玉米重要性状基因分析发现胚乳淀粉合成代谢、C4光合作用等途径相关基因均经历了多次全基因组复制事件,复制基因表现出表达的组织特异性。分析的29个玉米淀粉代谢相关基因,在不同复制事件Maize WGD、Maize-Sorghum、Pregrasses WGD和Pre-monocot WGD中分化的基因分别有8、3、8和10个。其中腺苷二磷酸葡萄糖焦磷酸化酶(ADPG)是淀粉合成关键酶,其编码基因SH2、AGPLS2来源于Pre-grasses WGD,两者与AGPLS3和AGPLS4来源于Pre-monocots WGD。小亚基AGPS1a、AGPS1b和AGPS均来源于Maize WGD,三者演化关系近,它们与AGPS2在Pre-grasses WGD分化。复制后的玉米淀粉代谢基因表现出了组织表达的特异性。在关键酶ADGP大亚基相关基因中,AGPLS2基因主要在胚中表达,SH2主要在胚乳中表达,AGPLS3在胚及胚乳中均有较高表达,AGPLS4基因则在主要在叶片中表达。ADPG小亚基的表达分化与大亚基相似,AGPS1b在玉米叶片中大量表达,而它的复制基因AGPS,AGPS1a以及AGPS2基因都主要在胚或胚乳中表达。玉米C4光合作用基因也主要来源于基因组复制。基因组中的C4相关基因有33个,其中3个基因来源于非线性的复制,1个来源于串联重复,29个来源于全基因组复制。关键酶磷酸烯醇式丙酮酸羧化酶(PEPC)的编码基因PEPC3在禾本科分化前形成并保留了两个拷贝PEPC3-a和PEPC3-b。这一事件同时形成了PEPC1与PEPC2S两个拷贝,其中PEPC2基因在玉米最近一次基因组复制事件再一次复制形成PEPC2-a和PEPC2-b。这些基因也呈现出组织表达差异。PEPC在禾本科分化前的复制形成基因PEPC1与PEPC2S,前者在叶片中极高的表达,后者在经历了玉米最近一次复制后形成的两个基因拷贝在各个组织中均有较高表达。玉米MAPK复合家族基因也主要来源于全基因组复制。本研究发现22个基因聚合在同一个集合内,其中有14个基因经历了Maize WGD,22个基因经历了较早的Pre-monocots WGD。表达分析发现不同复制事件基因之间也具有表达的组织特异性。综上,玉米基因组中70%以上的基因均为复制基因,且主要来源于几次全基因组复制。全基因组复制起源基因的组件丰富,产生GC含量分化,表达水平高,呈现组织表达特异性,因此,其功能分化的主要形式为组织表达分化。玉米胚乳淀粉代谢、C4光合代谢等重要性状的关键基因主要来源于全基因组复制,因此复制基因的产生和功能分化决定了玉米相应性状的演化。