论文部分内容阅读
蛋白质是生命活动的物质承担者,它的生物功能是由其结构决定的。成功预测蛋白质结构对进一步探索生命活动至关重要。蛋白质的三维结构是由组成蛋白质的氨基酸序列所决定的。因此,从理论上来说,蛋白质的空间结构可以通过其氨基酸序列预测出来。但从实际操作上来看,正确预测蛋白质结构却不容易。因此,该问题仍是生物信息领域的核心问题之一。 HP格点模型合理地简化了氨基酸序列,并将简化后的氨基酸序列匹配到网格中。网格中最佳匹配关系即为最稳定的蛋白质结构。目前,氨基酸序列可以在二维网格或三维网格中折叠,二维网格中的折叠结构仅仅是真实构象在二维空间的投影映射,而在三维网格中的折叠结构更接近现实。因此,本文将主要解决三维网格中氨基酸序列的折叠问题。文中根据HP格点模型在三维方格网中建立了数学优化模型。如此,本文将在三维方格网格中预测蛋白质结构这一生物问题转化为了数学优化问题。 从实际意义上分析,三维方格网中的蛋白质结构预测问题其实是氨基酸与网格格点的匹配问题。据大量文献可知,粒子群算法在求解匹配问题上已取得较好的结果。为此,本文试图采用粒子群算法求解上述问题。但基于氨基酸序列与网格格点匹配的特殊性,基本粒子群算法中的部分概念(如粒子的速度、位移等)需要被重新定义,以便算法可用于解决三维方格网中的蛋白质折叠问题。此外,为解决基本粒子群算法易早熟和收敛速度慢这两项问题,本文设计了禁忌策略和拉动策略。文中提出的两个组合优化算法,其中TPPSO1结合了改进的粒子群算法和禁忌策略,TPPSO2则由改进的粒子群算法、禁忌策略和拉动策略构成。 本文分别利用上述两种算法求解了两组氨基酸序列的结构。通过与其他方法的对比可知, TPPSO2在求解蛋白质折叠问题上更有效,同时也验证了两个优化策略有利于降低算法早熟的可能性,并可以提高算法的收敛速度。为进一步探索氨基酸突变的规律,本文利用组合优化算法分别模拟了单点突变和双点突变后的氨基酸序列。从模拟结果可看出,含有疏水氨基酸多的氨基酸序列不易受到单点突变影响,两个亲疏水性相同的氨基酸双点突变和发生在序列前后端的氨基酸单点突变更有可能影响蛋白质结构。