论文部分内容阅读
如何设计蛋白质远程同源性预测精准而又快速的方法,在生物信息学领域来说是一个长久困扰科研人员的问题。蛋白质远程同源性检测主要工作是在已知结构和功能的蛋白质数据库中去寻找到与未知蛋白质具有进化信息相关的蛋白质序列。科研学者已经提出了很多基于计算统计的预测方法,大致可以分为三类:1)基于比对的方法;2)基于判别式的方法;3)基于排序的方法。但是这些方法计算量大,效率低,并且在面对相似性很低的蛋白质之间检测的效果并不是那么理想。 在如今信息高速发展时代,未知的蛋白质序列在逐步增加并且大多数重要的同源蛋白质之间的序列相似性很低,如何在这样的情况下找到一种高效率的检测方法,仍然是科研人员以及生物信息学者需要克服的问题。 本文我们在目前已有的研究结果的基础上,采用了基于智能学习算法的思路来对现有数据集进行研究。在特征提取方法这一环节采用了多种特征融合的方式来提取蛋白质序列特征,如氨基酸组成(ACC)、二联体结构(DP)、氨基酸物理化学属性之相关因子(SOF)、特定位置打分矩阵(PSSM)以及灰色模型PSSM(Grey-PSSM),提出的特征通过使用LIBSVM包中支持向量机(SVM)也就是C-SVC来进行分类预测。其次我们还基于排序的方法,通过使用Grey-PSSM以及元胞自动机图像特征法(PCA-GLCM)来进行特征提取。通过这一系列的特征提取方法和分类方法得出的结果的比较,设计出了一种对远程同源性蛋白有效检测的方法,希望对以后的蛋白质远程同源性检测的研究有一定的帮助和促进。