论文部分内容阅读
单核苷酸多态性(SNPs)是人类基因组变异最常见的类型,SNPs和疾病的关系已经成为人们的关注的热点。在连锁分析研究中,SNPs主要被用作分子标记,来寻找基因组上疾病相关的区域。位于编码区和调控区的SNPs本身就含有疾病相关信息,尤其是位于编码区导致氨基酸改变的非同义SNPs(nsSNP),更是研究的热点。因为nsSNP导致的疾病占人类遗传性疾病的一半。因此,预测nsSNP的表型,即其是否具有疾病相关性,就成为计算生物学的一个挑战。
大多数研究关于nsSNP致病性的预测,都是基于nsSNP导致的氨基酸变异对蛋白质结构的影响和变异位点的保守性这两个方便展开研究的。尽管这些研究取得了很好的预测效果,但是由于要求变异位点周围的三维结构特征,所以不能应用到缺乏三维结构的蛋白质。本课题以此为突破口,仅从序列层次上提取预测特征,预测nsSNP导致的氨基酸突变是否致病。
课题中选取的特征包括:(1)变异位点的保守性;变异发生的位点越保守,则其在蛋白质中的作用就越重要,变异后导致蛋白质功能失调的可能性就越大,而这个特征也在之前的重点研究中显示出强大的分类能力;(2)野生型氨基酸与突变氨基酸之间的理化性质差异:突变氨基酸与变异氨基酸的理化性质,如质量、亲疏水性等,相差越大,则变异位点致病的可能性就越大:(3)氨基酸替换频率在致病组和中性组之间的差异:研究表明,在致病组中,理化性质相差比较大氨基酸之间的替换频率明显高于相似氨基酸之间的替换频率,而在中性组中替换趋势却完全相反,因此我们使用替换频率在中性组和致病组之间的差异作为一个预测特征;(4)氨基酸突变对蛋白质结构的影响:研究表明,变异位点周围的残基组成可以评估氨基酸突变对蛋白质结构的影响,而我们也使用这一特征来预测nsSNP的疾病相关性;(5)突变位点之间的协同作用:我们猜测,位于同一条蛋白质上的突变位点之间可能会有协同作用,共同导致蛋白质功能失调。
在预测模型方面,本课题使用了三种常用的机器学习算法:支持向量机(support vector machine, SVM)、随机森林(randomForest)和c森林(cforest)。SVM早已经在生物信息都得到了广泛的应用;randomForest是以决策树为基本单位的机器学习算法,近几年它在分类问题、回归问题以及特征/遗传标记选择方面,都得到广泛的应用,并且多篇文献报道其性能率优于SVM;cforest是2007年提出的,它改进了randomForest中结点特征选择的偏向性问题,目前的应用还不是很广泛。我们从预测性能、参数优化、运行内存需求和运行时间四个方面,对这三种算法进行了比较,结果显示,randomForest和cforest的性能优于SVM,且其不需要参数优化;randomForest与cforest相比,其性能在本课题并没有明显不同,且randomForest运行时间更短,对计算机内存的要求更小,因此,我们推荐使用randomForest。
最后,为了检验预测模型的可靠性,我们使用胃癌遗传易感性相关多态位点和来自Swiss-Prot的更新数据作为测试集进行测试。结果表明,我们的模型是比较可靠的。