论文部分内容阅读
随着大规模基因组测序计划的实施,大量原核和真核生物的基因组已被测定。在基因和基因组水平上分析这些序列的结构特征是亟待解决的问题。基因组序列可以看成是由四个字母A、G、C、T(分别代表腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶四种核苷酸)组成的“字母表”序列,本文分析了若干个基因组序列中κ字频数分布的几个特征和枯草杆菌基因组序列中各种回文结构的分布情况。
论文的第一部分为了描述基因组中κ字频数分布的特征,对几个典型原核生物、真核生物基因组序列进行了统计分析。区分“字”域和“频数"域,运用两种求信息熵的方法——Shannon信息熵和Fisher信息熵,定义了五种κ字频数的泛函。发现对于每一物种,由Shannon信息熵定义的四种泛函与字长砬间都具有很好的线性关系,并且这种线性关系在所研究的物种间具有普适性。
第二部分研究了枯草杆菌基因组中一种重要的字——回文结构。统计了枯草杆菌基因组中中间间隔S从O到29、侧翼序列长度L从4开始的所有回文结构,以及这些回文结构在编码区和非编码区的分布,并与同样长的随机序列中的回文结构数量做了比较。通过分析不同S、L的回文结构频数、标准频数(Z分数)以及AT含量,发现枯草杆菌基因组中长回文结构是过表达的、AT含量偏高并且对非编码区有偏好。