论文部分内容阅读
细胞器基因组是比较基因组学、系统发育学、群体遗传学等研究的重要数据来源。与核基因组相比,细胞器基因组较小,序列为单拷贝、多为母系遗传,不存在基因重组等问题,且序列高度保守,在植物系统发育、起源进化研究中占有独特优势,是植物系统发育研究最常用的有效信息来源。随着测序技术的进步,人们对大量的植物开展了基因组测序研究,基因组测序数据中包含了细胞器基因组的序列,利用这些序列可拼接出完整的叶绿体基因组。在本文中,(1)作者设计开发了利用基因组测序数据中来源于细胞器基因组的序列,组装和分析植物细胞器基因组的用户友好型平台。(2)以疏花柳为例,利用建成的平台完成了疏花柳叶绿体基因组的组装和分析,并进一步对17个柳属树种进行了叶绿体基因组的组装、比较和系统进化分析,对开发平台的应用进行了展示。(3)论文进一步选取了具有代表性的双子叶植物,对利用叶绿体基因组信息研究双子叶植物的系统进化进行了探讨。具体结果如下:一、植物细胞器基因组分析平台开发1.植物细胞器基因组组装平台提出一种新的、有效的组装策略并成功组装多种植物叶绿体基因组。使用三代测序数据构建Reads库,参考保守基因序列确定种子Contig序列,基于组装反馈机制实现序列延展,得到完整叶绿体基因组序列。最后,参考近缘物种基因组完成组装完整度检验并提供可视化结果。2.杨柳科植物叶绿体基因组对比分析平台杨柳科叶绿体基因组及CDS序列自动化分析平台包括叶绿体基因组结构分析、CDS结构分析和密码子偏好性分析功能。叶绿体基因组结构分析包括基因组大小变异分析,GC含量对比及编码蛋白基因数量差异统计功能。CDS结构分析实现CDS序列提取、编码区长度变异和内含子丢失分析。密码子偏好性分析包括GC1-3s及GC含量分布、中性作图、ENC作图分析。平台提供两种RSCU分析方式:单物种RSCU分析和物种间RSCU对比分析,分析结果以可视化方式呈现。3.在线叶绿体基因组数据分析平台在线数据分析工具实现SSR分析、密码子偏好性分析、m VISTA注释文件格式转换和共线性做图四个功能。二、平台在疏花柳叶绿体基因组研究中的应用1.疏花柳叶绿体基因组组装与生物信息学分析借助于该分析平台,采用生物信息学方法完成疏花柳叶绿体全基因组序列的组装、注释和特征解析,阐明疏花柳叶绿体基因组的结构和组成,结合己有叶绿体全基因组数据进行比较基因组学和系统发育分析。组装结果表明,疏花柳叶绿体基因组大小为155,026bp,共编码130个基因,基因组成和排列顺序高度保守,其中inf A基因推测可能为假基因。疏花柳叶绿体基因组共有18个基因含有内含子,其中3个基因含有2个内含子。密码子偏好性分析发现疏花柳叶绿体基因偏好于以A/T碱基结尾的密码子。ENC值分析表明疏花柳叶绿体基因组密码子偏性较弱。中性作图和ENC-plot分析均表明疏花柳叶绿体基因的密码子偏性受选择的影响较大,但同时基因长度,碱基组成,突变也发挥着不可替代的作用。疏花柳的叶绿体基因组SSR以单碱基重复为主,同时高SSR密度区域可用作生物标记。编码基因共线性分析和叶绿体全基因组比对分析均表明疏花柳叶绿体基因组未发生重排。系统进化分析结果表明疏花柳和四子柳具有更近的亲缘关系。2.柳属植物叶绿体基因组的比较分析。对柳属植物叶绿体基因组对比分析,发现柳属植物叶绿体基因组共编码115-134个基因,部分物种丢失lhb A基因,inf A基因在部分植物中为假基因,而大部分物种丢失ycf15基因。柳属植物叶绿体全基因组序列对比发现IR区序列变异最低,LSC区的变异程度最高,编码基因变异低于基因间隔区,内含子碱基变异低于编码序列,LSC和SSC的pi值明显高于IR区域,贡献的简约信息位点明显多于IR区域。IRs区的收缩和扩张分析发现所有柳属植物的IRa-LSC边界没有基因跨越,有13个物种IRb-LSC边界位于rpl22基因内部,trn H基因落在IRa-LSC边界的下游。柳属植物蛋白质编码基因序列的ka/ks比值介于0.8933~0.25之间,密码子偏好于A和T结尾,SSR主要为多聚A/T组成,大部分基因具有较低的Ka以及Ks,并且acc D基因表现出最大的正选择效应,说明该基因受到强烈正选择,为近期正在快速进化的基因。系统发育分析结果表明,基于叶绿体基因组和LSC序列构建的发育树将Salix interior、Salix tetrasperma、Salix chaenomeloides和Salix paraplesia聚为一支。SSC、IRs、编码区和非编码区都支持Salix triandra独立分为一支,但可信度较低。基于非编码区和叶绿体基因组构建的系统发育关系关系较一致,后者在大部分分支的支持率上略高于前者。三、基于叶绿体基因组的双子叶植物系统发育分析为揭示不同功能、不同选择压和不同核苷酸替代率的叶绿体基因组编码基因对双子叶植物系统发育树构建的影响,依据功能蛋白编码基因分组、选择压分组和核苷酸变异率分组构建的系统进化树。系统发育分析结果表明,基因的功能、总核苷酸替代速率和自然选择压大小均影响该基因在系统进化分析研究中的应用。