论文部分内容阅读
对蛋白质折叠形态的研究是确定蛋白质在各种复杂因素作用下的有规律性、稳定性和具有生物活性的结构。研究的依据是如何利用多肽链的一级结构获得蛋白质的空间构象。本文围绕蛋白质空间结构预测问题,以粒子群算法和遗传算法为代表的群智能算法为研究基础,并结合蛋白质的折叠能量势阱模型,提出了多种优化的衍生算法;其中以搜索最小蛋白质势能对应的空间构象为主要的单优化目标,并研究了将氨基酸疏水性和离散性作为辅助对象的多目标优化算法。所提出的算法结合了蛋白质折叠的生化过程,并采用多种评价指标评测获得的蛋白质空间结构。本文提出了利用蛋白质势能势阱理论及微观群落普遍存在的布朗运动现象所启发的粒子群算法(Potential-well Particle Swarm Optimization,PPSO),其中具备布朗运动效应的粒子数量由社会学中的学习效应来确定。在12个基本测试函数和选出的蛋白质HP格点模型的优化上进行了PPSO算法测试,在算法效率上PPSO算法优于选出的7个代表性的粒子群衍生算法,同时,在选出的三个蛋白质HP序列的折叠问题上也优化于作为对比的基本(Particle Swarm Optimization,PSO)算法。与大多数现代启发式优化算法相比,PPSO粒子群算法具有易于实现,控制参数少的特点,且易于解决蛋白质的二维HP格点结构预测问题。本文提出了基于人口的增量学习(Population Based Incremental Learning,PBIL)的蛋白质预测的衍生算法(Protein-Population Based Incremental Learning,PPBIL)。P-PBIL采用了概率向量来搜索最优值,利用蛋白质势能势模型来进行粒子的学习,它支持复杂的等位基因结构,机器学习水平要求大大低于传统的遗传算法(Genetic algorithm,GA)。此外,P-PBIL没有复杂的遗传算子,具有计算成本较少和搜索空间大的特点。实验中,本文采用了CB513和智人蛋白数据集作为训练集,得到了不同氨基酸长度的释放概率矩阵,并成功应用于蛋白质结构预测,结果表明P-PBIL在单序列蛋白质的预测上优于目前的主流算法,是一种较好的预测学习方法。根据蛋白质肽链形成的生物过程,本文提出了边形成边折叠的蛋白质折叠设想,该设想和蛋白质空间结构的形成过程的生物学发现相符,同时设计了改进的3D Off-lattice蛋白质结构模型,该模型采用基于布朗运动策略的粒子群优化算法(PPSO)来预测蛋白质空间结构,算法中进行空间搜索的粒子数量仅限于最后进入肽链的氨基酸和少数几个随机选出的粒子。本文不仅对Fibonacci序列进行了数值模拟,而且还对真实蛋白质toy模型也进行了预测计算,结果显示本算法具有收敛快和较强的全局搜索能力,能够用很少的计算时间得到各氨基酸的空间坐标。实验表明,PPSO比基本PSO具有更好的性能,是解决3D Off-lattice蛋白质空间构象的有效方法。蛋白质折叠过程中涉及到很多除了力场模型外的影响因素,由于蛋白质折叠的过程是在力场模型主导下的多目标优化问题,本文提出了多指标梯度排序多目标进化算法(Gradient Stochastic Ranking Algorithm,GSRA)。GSRA引入了小生境高斯距离存档方法,为了保持多样性和收敛性之间的平衡,本文选取了两个具有不同偏向的指标进行数据的环境选择。实验结果显示,在多目标标准测试函数集MaF上,GSRA算法优于7种用于对比的多目标算法。在蛋白质结构预测问题上,本文在最低折叠能量的主目标下引入了疏水性指标和离散性指标指标来优化蛋白质空间构象,结果显示大部分测试蛋白在敏感性、特异性及MCC值上都优于本文提出的PPSO算法。