论文部分内容阅读
蛋白质三级结构预测是生物信息学上的一大挑战,至今为止还没有好的方法能够获得期望的预测效果。利用从头预测方法对蛋白质三级结构进行预测的过程中,如果能够获取到蛋白质关联的信息,可以在很大程度上提高预测的精度,因此精确的蛋白质关联预测在三级结构预测中起着非常重要的作用。在同一个蛋白质中,蛋白质残基之间的关联并不是相互独立的,而对于传统的机器学习方法,它们要求样本实例相互独立并符合一致性分布,所以这一类方法不能很好的解决蛋白质关联预测问题。于此同时,蛋白质关联往往受很强的规则的约束,很多的规则都是先验的。基于以上情况,本文提出来一种基于统计关系学习框架的方法——Markov逻辑网对蛋白质关联进行预测,该方法能够克服传统机器学习对独立一致性的要求,并能够很好的利用蛋白质关联中的约束规则,通过利用基于权值的逻辑语言规则来表达蛋白质关联的领域知识,使问题得到很好的解决。本文的主要研究工作如下:①对蛋白质关联预测进行了全面综述。介绍了蛋白质关联预测产生背景,研究现状和研究意义,并重点分析了蛋白质关联图中包含的蛋白质三级结构信息。②对统计关系学习和Markov逻辑网相关理论进行了全面的综述。介绍了Markov逻辑网的概念与特性,并针对Markov逻辑网的学习和推理算法进行相关的讨论。③对蛋白质关联预测中使用的数据进行介绍,对预测中所使用的蛋白质特征信息进行具体的分析,以此来达到提高关联预测精度的目的。④从蛋白质的空间物理结构以及生化特性上对蛋白质关联规则进行了具体而深入的研究,抽取出蛋白质关联的一系列规则,对每一条关联规则进行了具体的阐述,并构造出其在Markov逻辑网中对应的谓词公式。⑤将Markov逻辑网应用到蛋白质的关联预测中,研究并实现了利用该方法对蛋白质关联的预测,并对实验进行了具体的分析。实验结果表明,基于Markov逻辑网的蛋白质关联预测能够取得相对于其他预测方法更好的效果,与当前预测效果最好之一的BetaPro预测比较,预测提高的精度比较显著,最好能提高八个百分点,这也进一步验证了Markov逻辑网这一统计关系模型的应用价值。