论文部分内容阅读
作为遗传信息的表现者,蛋白质是细胞中最丰富、功能最多的生物大分子。研究发现蛋白质功能与蛋白质的空间结构有着紧密联系,具有相似功能的蛋白质其结构往往比较相似。所以,对蛋白质结构进行预测研究可以了解蛋白质的功能,进而有助于揭示生命活动的本质,且对相关疾病发生机制的认识及有针对性药物的研发会起到积极的推动作用。随着高通量测序技术的不断发展,蛋白质序列的数目在呈指数形式增加,使用实验方法去获取蛋白质的结构已经远不能满足需要。因而,利用计算方法来进行蛋白质结构预测已成为生物信息学研究中的一大热点。本文主要研究了蛋白质结构预测中两个重要的问题:基于关联图的蛋白质结构重建和二硫键连接模式预测。提出了基于2D关联图的蛋白质3D重建算法Glocal。Glocal算法中使用粒子群算法去优化全局能量函数,利用模拟退火算法去优化局部能量函数。通过引入粒子群算法,避免了的之前重建算法中广泛存在的关于初始结构选择这一难题。通过设计全局函数,从整个关联图的角度去优化蛋白质的初始结构,可以有效的减少陷入局部最优,提高了预测精度。大量实验证明,Glocal算法有效的从天然关联图中恢复的蛋白质3D结构,重建蛋白质结构的平均RMSD值小于2。同时,Glocal算法在处理含有错误连接的关联图显示了良好的健壮性。实验中,进一步分析关联图中长连接和阈值对蛋白质重建结果的影响。提出了融合了传统机器学习模型和突变关联预测模型的二硫键连接模式预测模型。在传统机器学习模型部分中,引入了结构域特征,采用并联方式融合两个半胱氨酸的特征并进一步采用广义主成分分析(GPCA)降维。通过大量的实验论证了这些改进可以有效的提高预测模型的预测精度。二硫键作为蛋白质中一种重要的连接,形成二硫键的两个半胱氨酸位置之间可能存在共同进化,因而可以利用突变关联方法去预测二硫键。文中分析了传统机器学习模型和突变关联预测模型在二硫键连接模式预测上优缺点,并使用线性方式去融合这两个模型的预测结果,形成了最终的二硫键连接模式预测模型。本文中的预测模型的最终预测精度为Q_C=81.8%和Q_P=79.2%,充分验证了该模型的有效性。