论文部分内容阅读
蛋白质是一种高分子化合物,它作为生命活动的重要承担者,主要表现在其生物功能上,这些功能又由蛋白质的空间结构决定,因此搞清蛋白质结构与功能的关系,对于如何设计新分子以及生物制药等的研究都具有重要的意义。然而蛋白质结构的确定非常复杂,即使采用实验方法也不会使过程简化,且代价较高,所以实验测定的蛋白质结构远比已知的蛋白质序列要少。因此,用实验的方法测定蛋白质空间结构几乎不可行,为了缩小已测定结构的蛋白质数量和已知序列的蛋白质数量的差距,似乎只有从理论上寻找突破口,进而找出预测蛋白质结构的新方法。数据量如此之巨大,从理论上预测蛋白质的空间结构,就要将基于经验和知识的方法与实验设计、处理等方面的计算机技术以及统计物理学和信息科学的方法融合于一体,一旦这些方法取得成功,不但可以解决蛋白质折叠这一生物学难题,还可以在探索研究分子生物学方面提供新的思路。本文就是围绕蛋白质二级结构预测这一主题,试图找出一种更好的氨基酸分类方法,并且按照该分类方法设计一种同源性替代矩阵,作为神经网络的输入层以此来提高蛋白质二级结构预测的准确率。
氨基酸的序列和分类包含一定的蛋白质二级结构信息。本文根据氨基酸侧链基团的电子效应,将17种氨基酸(Pro、Gly和Cys除外)划分为供电子效应氨基酸,吸电子效应氨基酸以及弱电子效应氨基酸三类。对该分类情况下的氨基酸的二级结构倾向性因子进行计算,为了能够更好的阐述此种分类情况下的氨基酸与蛋白质二级结构的关系,我们分别对于非同源蛋白质数据库以及不同结构型蛋白质结构数据库的氨基酸倾向性进行了统计分析。为了使所分类的氨基酸能够更加准确的表现出对于不同蛋白质二级结构的倾向性,经过分析讨论我们把Ala,Asp,Glu从供电子效应氨基酸中分离出来划分为一类,其余的分类不变。
根据基于知识的分类以及统计优化后的分类,设计出了不同的新的替代矩阵,并对这两种矩阵进行有效性分析。我们发现这两种替代矩阵对于氨基酸序列的相似程度具有一致性,从而说明了该替代矩阵设计的正确性以及可行性。
选取一定的蛋白质数据集,用新设计出的两种不同的替代矩阵作为神经网络的输入层,对蛋白质二级结构进行预测。结果表明,经过统计分析后重新对氨基酸进行分类所设计出的替代矩阵与基于知识进行分类所设计出的替代矩阵对于准确率的影响差别不是很大。但是,相比较而言还是经过统计分析后设计出的替代矩阵,比较有利于蛋白质二级结构预测准确率的提高。