论文部分内容阅读
人类基因组计划已进入到后基因组时代,对蛋白质结构和功能的研究和预测成为其主要的研究方向之一。由于通过实验确定蛋白质的结构和功能速度较慢,而且会遇到一些目前无法解决的困难。因此探索利用理论及计算方法来从氨基酸序列快速地推断出蛋白质的结构和功能具有重要意义。本文从氨基酸序列出发,研究了同源寡聚蛋白质分类,主要工作如下: 本文介绍了特征提取方法和同源寡聚蛋白质分类的研究现状,并对同源二聚体和同源非二聚体蛋白质使用了基于伪氨基酸组成成分特征提取和信息熵方法进行分类研究。伪氨基酸组成成分特征提取方法以传统的氨基酸组成成分为基础,又考虑了不同层次残基之间的相互影响,包含了蛋白质序列的许多信息,根据这一特点,本文使用了伪氨基酸组成成分作为特征提取方法。FDOD方法是基于信息熵的信息离散性度量函数,它和叉熵之间存在内在的联系,文中对它们之间的关系进行了研究,并在叉熵的基础上对多分布偏差度量进行了进一步的思考。由于FDOD是叉熵的一种形式,因此在它的基础上根据特征向量的提取情况,对同源寡聚蛋白质进行分类。其分类能力比使用子序列分布为2的FDOD方法要好。 本文中在原数据集中随机抽取一些数据构建了一个子数据集,并使用同样的方法对子数据集进行分类。比较了两个数据集的分类结果,表明数据集的大小对分类系统的影响较大。同时,对伪氨基酸组成成分特征提取方法的中权重因子的选取进行了讨论,说明它可用于调节氨基酸序列次序信息对分类系统的影响程度,在计算中可根据结果的优劣适当选取。