论文部分内容阅读
蛋白质在生物的生命活动中处于核心的地位,而蛋白质的作用与其结构又紧密相关,要想弄清某个蛋白质所发挥的作用,首先必须要先弄清楚蛋白质的结构,因此蛋白质的结构信息的研究是生物信息学研究中的一个重点。蛋白质的结构一般分为四个层级:一级结构、二级结构、三级结构及四级结构。一级结构是指蛋白质的氨基酸序列,二级结构是指蛋白质主肽链的局部空间排布,三级结构是指整个多肽链的三维空间结构,四级结构是指蛋白质所包含的多肽链的个数。对于某些较大的具有四级结构的蛋白质而言,其功能与其四级结构密切相关,而随着蛋白质结构数据的越来越多越来越快地被检测出,蛋白质四级结构预测是一个比较有挑战同时又具有重要意义的研究问题。蛋白质的一级结构包含着蛋白质其它高级结构所需要的全部信息,而最早通过氨基酸序列来预测蛋白质四级结构的工作是由Garian做出的,2001年Garian开发出了第二个用一级结构预测四级结构的软件Quaternary Structure Explorer(QSE)。后来的学者也在Garian探索的基础上,展开了许多研究。而本文试图提出一个较为有效的预测蛋白质四级结构的方法Quat-PRE。本文提出的Quat-PRE方法,首先从蛋白质四级结构数据库PiQSi中选出适当的蛋白质序列数据集,然后结合氨基酸的各种统计信息和物化性质将蛋白质序列转化为定长的特征向量,之后综合运用特征筛选的mRMR方法和基于SVM的wrapper方法做若干组的特征筛选,再通过SVM对筛选出的几组特征数据集做五倍交叉验证,选出综合表现效果最好的特征作为Quat-PRE方法所要提取的序列特征,通过SVM对未知序列进行四级结构预测。同时为证明Quat-PRE方法的有效性,对Quat-PRE方法做了独立集测试并与Garian提出的预测同源与非同源二聚体的QSE方法进行了比较。本文的Quat-PRE方法在训练集上通过五倍交叉试验得到的预测准确率为49.11%,比随机预测的16.67%高近33个百分点,在独立集上的预测准确率也达到了39.3%,亦比随机预测的准确率高出一倍多。另外,将本文的Quad-PRE方法与Garian提出的QSE方法进行了比较,结果无论从预测正确率上还是从ROC曲线上,都证明Quad-PRE方法要优于Garian的QSE方法。以上结果充分证明,本文提出的Quad-PRE方法在预测蛋白质的四级结构方面是有一定效果的。