论文部分内容阅读
模体是蛋白质进化过程中的保守区域,并且能够反映蛋白质超家族之间亲缘关系,它们通常对蛋白质的功能起重要作用。因此,蛋白质超家族的模体特征分析及蛋白质超家族的识别对研究蛋白质结构和功能具有重要意义。本文以蛋白质超家族中的模体和序列为研究对象,用生物统计学和生物数学中的方法,从蛋白质超家族中的模体功能特征分析及相对位置分布统计、信息特征提取和蛋白质超家族识别这三个方面进行了研究。主要研究内容如下:
⑴从蛋白质结构分类数据库(SCOP)中选出16个具有代表性的蛋白质超家族,构建了序列一致性小于等于25%和40%的蛋白质超家族数据库。利用ScanProsite和MEME模体搜索工具,提取了所构建的数据库的序列模体及模体的位置信息和功能信息,并对其进行整合;进一步分析了超家族中模体的结构和功能特征,统计分析了模体相对于序列N端和C端的位置分布及模体出现的频次,结果发现:在含有一种或是多种类型模体的蛋白质超家族中,模体在序列中的位置分布均呈现一定的规律性。本文统计和分析的模体特征以及模体的位置保守性规律能为蛋白质超家族的识别和蛋白质相互作用网络的建立提供有力帮助。
⑵用生物统计学中的单因素方差分析方法,对16个具有代表性的蛋白质超家族的氨基酸组分、物理化学性质分类特征及其组合特征等进行均值检验,提取出具有差异显著性的特征。此方法不仅有效地降低了特征向量的维数,而且为蛋白质超家族识别提供了新的参数。另外,还统计了已知功能的模体和基于统计意义发现的模体在各个超家族中出现的频数。本文定义的模体频数首次作为一种新的特征被用于蛋白质超家族的识别。
⑶用三种方法所选取的参数用于蛋白质超家族的识别:①将数据库中超家族的20个氨基酸组分、400个二肽组分、亲疏水特征、物理化学特征以及这些特征的组合输入到最小离散增量算法中,对蛋白质超家族进行预测;②以具有统计显著性的特征及其组合特征作为新参数模式进行了预测;③将模体频数和具有差异显著性的特征参数模式结合,形成新的参数模式输入算法完成预测。