论文部分内容阅读
本文提出了两个新的蛋白结构域预测系统,PPSAA-Domain和KemaDom,这两个系统分别采用基于模板的预测方法和从头算的预测方法。
首先,我们设计了一个新的基于模板的蛋白结构域预测系统PPSAA-Domain。该系统框架(Framework)包含三个主要步骤:第一,用自己提出的Profile-Structurealignment方法(PPSAA)比较两个不同蛋白之间的相似性;第二,用我们给出的PPSAA-Template算法在已知蛋白结构域数据库中查找相似模板;第三,用我们提出的以贪心方法为主要思想的GreedyCombination算法对第二步得到的模板进行组合以达到结构域预测。该系统框架解决了当前基于模板方法无法模拟低同源性(remotehomology)结构域的问题。
其次,作为对基于模板方法的补充,我们设计了一个新的从头算预测方法,KemaDom。该方法利用基于子空间特征的SVM(支持向量机,SupportVectorMachine)集成模拟氨基酸上下文信息(10calcontext),这种集成方法可以增加预测的多样性。在特征抽取方面使用生物知识,二级结构、氨基酸溶剂可及性和物理化学特性作为学习器的输入单元。在CATH数据集和CAFASP4数据集上,实验结果表明我们的方法在整体性能上要优于目前已有的从头算方法。最后,我们还将该方法做成网页服务器,科研和商业用户都可以免费使用。