论文部分内容阅读
随着人类基因组计划的完成,人们已经获得了大量生物的遗传信息,数以万计的蛋白质序列也已经被测出,到2004年4月13日为止SWISS-PROT数据库中总共收集了148516条已被测序的蛋白质序列。然而一条蛋白质序列必须折叠成一定的空间结构时才能发挥它特定的生物功能,人们在对蛋白质序列测序完成之后更希望的是得到这些蛋白质的空间结构,以便发现结构与功能之间的联系。因此,蛋白质结构和功能的研究就成为了后基因组时代生命科学领域人们研究的主要任务和目的。 目前,通过实验的方法获得的蛋白质结构序列只有两万多条(2004年4月20日,PDB数据库中共收集了25176条),远远落后于蛋白质序列的测序速度,因此理论预测蛋白质结构势在必行。然而,直接从蛋白质一级序列预测其三维空间结构时人们又遇到了诸多困难。在对蛋白质分子的仔细研究和分析后发现由二级结构组装而成的空间结构是有限的。因此,如果能从蛋白质一级序列先预测出二级结构,再由二级结构预测三级结构便成为一条有效的途径。这里,蛋白质二级结构预测不仅成为联系蛋白质一级序列和三级结构的纽带,而且也是从一级序列预测其三维空间结构的关键步骤。 本文的主要工作是蛋白质二级结构预测方法的研究,具体工作概括如下: 1.从上世纪60年代中期至今,蛋白质二级结构预测已经发展了40年的时间,期间涌现出了许多好的预测方法。然而,由于每种方法选用的数据集不同、对二级结构的定义不同、选用的评价指标不同,因此方法间无法进行客观、全面的比较。而且研究证明,上述几个方面的因素对方法的预测结果影响较大,因此就迫切需要在一个统一的标准下将多种方法进行评价,从而找出目前最好的方法,也能从中发现需要继承和改进的方向。本文针对上述几个因素选择了统一的标准,对目前主要的十种方法进行了评价,这十种方法分别是:GORⅠ、PROF、GORⅣ、NNPREDICT、PHDsec、SSpro v 2.0、PSIPRED、PREDATOR、SOPMA和APSSP2。这一工作的过程是繁杂而费时的,工作量较大,至今没有其他人做出。 2.FDOD方法是一种比较多序列间差异程度的有效方法,作者将这一方法首次用于蛋白质二级结构预测中,得到了令人鼓舞的结果,准确率达到了78.8%,是目前二级结构预测中最好的结果之一。鉴于这一令作者也颇感意外的结果,文中对FDOD方法做了详细地分析,它的优势在于:一,它使用子序列分布作为序列特征的描述,无需引入其它物化参数且又挖掘出了序列本身尽可能多的特征信息,从而很好地给出了序列与结构之间的关系。二,FDOD函数的使用。FDOD函数是基于信息论中熵的概念,输入向量是一个概率分布,计算中只涉及到简单运算,因此对输入向量的规模没有大的限制。与其它方法相比,FDOD方法具有明显的运算速度优势而且预测准确率高。神经网络方法是蛋白质二级结构预测发展过程中的一类重要方法。从1988年Qian和Sejnowski首次将其应用到二级结构预测至今又有了很大的改进和提高。作者对这一方法进行了认真的学习,用一种改进的BP网络进行了实际预测。由于受到时间和经验等多方面的影响,目前这一尝试只得到了一个初步的结果,还需要在今后的工作中继续进行研究。支持向量机方法是一类较好的机器学习算法,我国学者孙之荣等人将这种方法首先用于了蛋白质二级结构的预测。然而由于支持向量机方法在处理大规模数据时需要的时间和空间的代价很高,为了解决这一问题我们将支持向量机与增量学习技术结合起来,提出了一种改进的支持向量机增量学习方法,并将其应用于蛋白质二级结构预测中。预测结果显示,此算法可在牺牲很小的测试精度(不足1%)的前提下节省一半左右的训练时间,从而提高了二级结构预测的效率。