论文部分内容阅读
随着测序技术的迅速发展和各种基因组计划的相继完成,数据库中所积累的序列信息呈爆炸式增长。然而面对这些海量的由抽象字符串构成的生物序列,我们却难以直接获得有效的信息。因此如何发展简单、高效的序列分析方法将会为基因组分析相关研究提供有力的理论和技术保障。本课题基于多聚体核苷酸和蛋白质序列分别提出了相应的几何分析方法,并针对微生物基因组中蛋白质编码基因重注释等问题进行了深入研究,主要包括以下内容。
1.基于多聚体核苷酸的DNA序列几何分析方法的构建。几何方法由于其直观化强、简单有效等优点在DNA序列分析中受到广泛重视。已有几何方法大多基于单核苷酸构建而成,随着功能基因组学的发展,二联体、三联体核苷酸等多聚体信息在基因组研究中发挥了更加重要的作用,然而由于高复杂性等原因目前基于多聚体核苷酸的几何方法较少。本论文中,我们首先从游走模型角度分析了应用较为成功的Z曲线理论,指出了几何方法的共性,然后根据二联体各位点碱基的理化特性,将16种二联体核苷酸分布于笛卡尔直角坐标系的四个象限中,进而提出一种新的几何方法(DN曲线)。该方法克服了已有二联体模型可视化功能差的弱点,可以直观展现序列中二联体核苷酸的组成及分布信息。通过对DNA序列相似性分析及甲型H1N1病毒基因组分析的应用,结果表明该方法能够很好地展现序列特征,并为今后相关研究提供了新的分析思路。与二联体相比,三联体核苷酸更为复杂。本论文中,我们根据三联体各位点的碱基理化特性,将64种三联体核苷酸分别用二维坐标(x,y)数值表示,提出了目前首个能够在可视化空间中直观展现DNA序列中的三联体组成及分布信息的几何方法(TN曲线)。我们基于该方法提出了一系列特征参数,并应用于保守基因识别、编码/非编码分析及DNA序列相似性分析等研究中,结果表明该方法比已有方法更可靠、提供的信息更多,且在蛋白质编码基因中具有很好的应用价值。
2.基于几何方法的微生物基因组蛋白质编码基因的重注释。对微生物基因组中蛋白质编码基因的预测工作已经持续了近20年,然而越来越多的研究表明目前数据库中广泛存在微生物基因组编码基因错误注释问题,这些错误数据的不断积累将严重影响数据库的质量,甚至会导致错误的研究结论。本课题针对该问题进行了三方面工作。第一个工作中,我们提出了改进的TN曲线并将DNA序列中6个ORF用36个数值参数定量表示。然后结合Fisher判别方法,对当前几种较有争议的痘病毒和古细菌基因组中错误注释蛋白质编码基因进行了识别,取得了准确率高于其他方法的预测结果。为了说明所筛选结果的可靠性,我们定义了一批数学参数,并将密码子偏好分析等统计方法应用进来,结果表明该方法可靠性高。此外,针对几何模型中普遍存在的人为参数设置问题,我们通过实例进行了分析讨论。基于这些研究结果,在第二个工作中,我们将TN曲线系列方法和Z曲线方法有机结合提出了一套通用的微生物基因组蛋白质编码基因重注释算法,并开发了首个网络平台www.cbi.seu.edu.cn/RPGM供用户免费使用。该算法中,共有75个特征参数描述密码子组成及分布、密码子各位点碱基组成等信息,通过对61个微生物基因组的实际应用,取得了99.94%的平均预测准确率。随后我们分别对这75个特征参数对应的识别系数与基因组G+C含量和基因组大小之间的相互关系等问题进行了大量分析讨论,结果表明这些参数能够展现序列深层次信息,预测结果比已有方法准确、可靠。同时,对水平转移基因问题的分析表明错误注释的蛋白质编码基因也是导致目前水平转移基因预测准确率低、假阳性高的主要原因。第三个工作中,将我们提出的重注释算法与基因从头预测方法结合,对在环境保护和新能源领域具有重要应用的硫还原地杆菌Geobacter sulfurreducens PCA蛋白质编码基因进行重预测,结果有16个目前注释为编码基因的ORF被预测为非编码序列,并有104个新基因被发现,其中有41个用BLAST、COG等方法预测得到详细的生物学功能。该工作避免了以往重注释工作中伴随的假阴性升高问题,因此为今后微生物基因组中蛋白质编码基因欠注释问题提供了新的研究方法。
3.蛋白质序列几何分析方法的构建。与DNA相比,蛋白质是由20种氨基酸构成的更为复杂的字符序列,针对蛋白质序列的几何方法起步晚、应用少。本论文中,我们提出了两种用于蛋白质序列分析几何方法。第一种方法中,我们将在蛋白质三维结构中具有重要作用的氨基酸静电和疏水特性相关的理化参数融合,提出一种新的二维曲线来直观显示序列特征,通过与已有方法比较表明该方法具有提供信息多、可视化效果好等特点。通过将该曲线转化为数值距离矩阵,我们提取了一系列数值参数作为蛋白质序列的定量描述符,其在不同蛋白质序列的相似性分析中的应用进一步证明了该方法的有效性。第二种方法中,我们利用柱坐标将蛋白质序列中各种氨基酸分布于圆柱体侧面20条支柱中,其位置反映了各氨基酸残基在序列中的组成及分布信息。然后利用各种氨基酸残基相对于其所在支柱重心的均方根作为数值描述符,得到20个特征参数维向量来定量描述蛋白质序列特征。将其应用于不同蛋白质序列的相似性分析,取得了较好的计算结果。