论文部分内容阅读
本文研究的蛋白质是生物体中含量最高、功能最重要的生物大分子之一。近年来,随着基因组草图的绘制完成,蛋白质研究进入了一个新的高潮迭起的时代。氨基酸是蛋白质的基本结构单元,在蛋白质中出现的氨基酸共有20种,氨基酸以肽键相互连接,形成肽链。因此在生物学中,蛋白质常被解释为是由氨基酸借肽键连接起来的多肽,然后由多肽连接起来形成的物质。将20种氨基酸作为蛋白质序列的基本单元,为我们分析蛋白质序列提供了条件。在现存蛋白质序列分析方法的基础上,本文将寻找一种不同于以往的蛋白质序列分析方法。通过对不同种类的蛋白质的相似性分析,进一步阐述了蛋白质之间的相似关系,从而也多方面验证了新方法的有效及可行性。本文主要有以下几个方面的成果:一考虑氨基酸的亲疏水性,提出了新的统计量K-块(K=1,2,3)及概率统计方法,完成了序列到数值的转换,构造出全新的56维向量。二寻找一种便于计算的序列距离用于蛋白质的相似性分析,很大程度上简化了计算的复杂度,便于对未知蛋白质进行快速分析。三选取多种代表性蛋白质(9种ND5蛋白数据,13种β珠蛋白数据,43种生物的细胞色素C数据以及40种病毒蛋白数据)并用新方法进行相似性分析,与Clustal X软件和MEGA4.1软件共同构建的蛋白质聚类树及现有的结果进行比较,分析结果并讨论方法的可行性。四根据蛋白质相似性分析的结果总结出方法的适用范围及局限性。本文通过研究发现,由于膜蛋白的亲疏水性在进化过程中被保护的很好,我们基于此性质上提出的新方法在用于小批量蛋白质序列相似性分析时所得到的结果,比单纯研究蛋白质的氨基酸序列要好,同时比现有论文的蛋白质序列分析结果更接近常用的Clustal X软件和MEGA4.1软件的分析结果。而且方法的计算复杂度更低,是一种便捷有效的分析方法。而对于大批量的蛋白质序列相似性分析,此方法在精确度上有待于进一步完善。