论文部分内容阅读
密码子的使用在不同物种和不同基因之间都体现出不同程度的偏好。这种密码子的偏好性通常被认为受很多因素的影响,如转录、翻译选择压,碱基的突变压等。其中序列碱基的组成(或GC含量)受到了很高的关注。非编码区的GC含量、密码子第三位的GC碱基或GpC序列的数目都与密码子的使用有着紧密的联系。如今,越来越多的全基因组数据已经公布,这为系统分析各个物种的密码子使用情况提供了极好的机会。本文对多个物种的基因组内密码子和氨基酸使用频率进行了系统的比较和分析,发现密码子和密码子对使用都受到了碱基组成的影响:密码子对强烈避免使用长单核苷酸重复序列,并且与由碱基A或T组成的重复序列相比,含有C或G重复碱基的密码子对的避让偏好更明显;基因组的GC含量与密码子对的实际值/预期值(o/e值)存在负相关关系,尤其是与C/G对的关系更明显。这些结果表明,较长的C/G单核苷酸重复序列更容易导致插入缺失现象的产生,因此,若要避免突变的发生的话,最好的策略就是减少高GC含量密码子的使用,这样可以将产生长C/G序列的风险达到最小化。这也是为何几乎所有GC含量低的密码子都被用于编码起始子,终止子和简并密码子个数较少(<3)的重要氨基酸。另外,我们发现在高度保守的基因中,C/G对有非常明显地避让效应。这一结果更加证实了长单核苷酸重复序列,尤其是C/G重复序列的避让偏好,可能在维持基因结构或基因功能的稳定性方面扮演着重要角色。针对密码子的调查,我们通过对物种间、基因间或者基因结构域之间的密码子使用作线性回归分析,观察到密码子使用频率与序列的GC含量有着很强的关联性。GC含量相近的序列有着非常一致的密码子或氨基酸使用模式,而GC含量差异大的序列之间密码子使用很不相同。这一关联性在相似GC含量的不同物种中都有被发现,已突破了物种特异的局限,因而GC含量可能是影响密码子使用的普遍性因素之一。对氨基酸使用情况的探究,我们发现某种氨基酸同义密码子的平均GC含量(GCsyn)与氨基酸的使用频率有着非常有趣的关系:随着区域GC含量的变化,四种具有最高GCsyn值和五个最低GCsyn值的氨基酸使用频率一并发生明显的变化,但另外的11个具有中等GCsyn值的氨基酸使用频率却很少发生改变,这11个不变型氨基酸的简并密码子个数与其使用频率存在明显的相关性。另外,基因的特定功能决定了它需要高或者低GCsyn的氨基酸,进而决定了基因内各氨基酸的使用频率。这一结果显示,某一区域的GC含量的变化基本上是由那些极端GCsyn的氨基酸所决定的,他们的贡献率占到了 76.7%。因此,我们认为,氨基酸的使用频率,尤其是极端GCsyn氨基酸的使用频率决定了区域的GC含量,进而决定了该区域的密码子使用情况。我们的结果为理解密码子和氨基酸的起源和进化提供了新的观念,同时也证明了 GC含量在密码子使用模式中起到了非常重要的作用。