论文部分内容阅读
基因组学和转录组学技术的快速发展,使生物信息学的研究进入了大数据时代。这些组学数据的大量产生,在帮助我们解决生物学问题的同时,也产生了许多需要解决的问题。其中一项最主要的问题是:如何高效的利用这些数据并从中分析提取出我们所需要的信息。通过有效地转录组数据分析,让研究人员可以对基因的功能和生物通路的组成有更进一步的了解。作者基于以上的问题,在博士期间以转录组数据为主要研究方向,在生物信息领域进行了相关的研究,扩展了双聚类算法在植物和微生物转录组学数据上的应用范围。研究的主要目的在于提高生物能源产出效率,同时为转录组数据在生物信息学领域开发出各种有效简洁的计算工具和网络平台,提高研究者的工作效率。本文的一项主要研究工作是在能源植物柳叶稷的基因组中有效地寻找植物细胞壁生物过程的相关基因。拟南芥、水稻和玉米等多种模式植物中大量的植物细胞壁相关的基因,已经在相关研究中被实验发现并验证。然而,迄今为止在新测序的能源植物柳叶稷上还没有植物细胞壁相关的实验结果。我们通过使用计算生物学的手段,提出了一种两阶段的方法在柳叶稷基因组中尽可能准确地识别植物细胞壁相关基因。1)首先,我们通过同源比对的方法,将已完成注释的模式生物细胞壁相关的基因映射到柳叶稷的基因组上。通过这种方式,我们在柳叶稷的基因组上得到共计991个同源基因。2)使用双聚类算法分析多种情况下的转录组数据,得到与这些同源基因具有共表达性质的基因集合。该方法共得到104个基因集合,这些基因集合包含了991个同源基因中的830个,同时还包含了823个未曾报道过可能是植物细胞壁相关的基因。之后,我们利用拟南芥的转录组数据对这1653个预测的基因进行了平行验证,从而得到了112个还未报道的非常可能的柳叶稷细胞壁相关的基因。在我们认识到双聚类算法在植物转录组学数据分析上的优势之后,我们在另外一项工作中提出了基于双聚类方法的局部共表达相关性函数BF score,来代替标准Pearson或Spearman相关性系数。由于植物转录组学数据具有重复实验数目少、实验条件多的特点,并基于共表达基因在特定条件下才会产生共表达性质的理论,我们提出的局部共表达相关性函数。该函数在植物转录组数据分析上具有更高的敏感性。通过使用新定义的局部共表达相关性函数,我们研究了拟南芥、玉米和柳叶稷中木质素合成的生物通路的异同点,并分别预测了219、177和532个与木质素合成具有共表达关联性的基因。同时使用提出的局部共表达相关函数定义了生物通路间的共表达性质,找出了与木质素合成具有共表达性质的生物通路。我们继续扩展该局部共表达相关性函数的在转录组学上的应用范围。我们开发了植物RNA-seq短序列映射质量控制软件Gene QC,该软件能够在进行转录组数据分析之前向生物学家提供具体的统计参考信息。通过对RNA-seq短序列映射位点和基因与基因间的序列相似性的分析,可以将经过RNA-seq处理流程所得到的基因表达数据的可信程度分成不同的等级。这就使得植物学家在进行实验验证之前,可以选择更加可靠地候选基因进行敲除和突变处理,从而节约实验费用和时间。我们将局部共表达相关性函数应用于已知的表达数据来生成训练集,这样就可以解决部分RNA-seq短序列,由于与参考基因组多个位置具有很高的序列相似性而导致的无法准确定位的问题。使用以上的解决方法,Gene QC能够提高植物中RNA-seq数据分析的精度和价值。同时我们扩展了转录组学RNA-seq数据的应用范围,通过使用支持向量机构建原核生物转录单元信息的训练集,来预测特定条件下的操纵子结构。我们构建的Seq TU网络平台能自动化的完成RNA-seq数据的测序质量检查、短序列映射和转录单元预测的流程,是一个用户友好,操作简便且预测精度高的良好平台。在文章的最后一章还介绍了博士期间的其它科研工作包括:从能量最优化角度分析近源细菌的基因组组成的共性和差异性以及交互式的细菌生物通路重构平台。