nsSNP位点表型预测的生物信息学研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:CSgrr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(SNPs)是人类基因组变异最常见的类型,SNPs和疾病的关系已经成为人们的关注的热点。在连锁分析研究中,SNPs主要被用作分子标记,来寻找基因组上疾病相关的区域。位于编码区和调控区的SNPs本身就含有疾病相关信息,尤其是位于编码区导致氨基酸改变的非同义SNPs(nsSNP),更是研究的热点。因为nsSNP导致的疾病占人类遗传性疾病的一半。因此,预测nsSNP的表型,即其是否具有疾病相关性,就成为计算生物学的一个挑战。 大多数研究关于nsSNP致病性的预测,都是基于nsSNP导致的氨基酸变异对蛋白质结构的影响和变异位点的保守性这两个方便展开研究的。尽管这些研究取得了很好的预测效果,但是由于要求变异位点周围的三维结构特征,所以不能应用到缺乏三维结构的蛋白质。本课题以此为突破口,仅从序列层次上提取预测特征,预测nsSNP导致的氨基酸突变是否致病。 课题中选取的特征包括:(1)变异位点的保守性;变异发生的位点越保守,则其在蛋白质中的作用就越重要,变异后导致蛋白质功能失调的可能性就越大,而这个特征也在之前的重点研究中显示出强大的分类能力;(2)野生型氨基酸与突变氨基酸之间的理化性质差异:突变氨基酸与变异氨基酸的理化性质,如质量、亲疏水性等,相差越大,则变异位点致病的可能性就越大:(3)氨基酸替换频率在致病组和中性组之间的差异:研究表明,在致病组中,理化性质相差比较大氨基酸之间的替换频率明显高于相似氨基酸之间的替换频率,而在中性组中替换趋势却完全相反,因此我们使用替换频率在中性组和致病组之间的差异作为一个预测特征;(4)氨基酸突变对蛋白质结构的影响:研究表明,变异位点周围的残基组成可以评估氨基酸突变对蛋白质结构的影响,而我们也使用这一特征来预测nsSNP的疾病相关性;(5)突变位点之间的协同作用:我们猜测,位于同一条蛋白质上的突变位点之间可能会有协同作用,共同导致蛋白质功能失调。 在预测模型方面,本课题使用了三种常用的机器学习算法:支持向量机(support vector machine, SVM)、随机森林(randomForest)和c森林(cforest)。SVM早已经在生物信息都得到了广泛的应用;randomForest是以决策树为基本单位的机器学习算法,近几年它在分类问题、回归问题以及特征/遗传标记选择方面,都得到广泛的应用,并且多篇文献报道其性能率优于SVM;cforest是2007年提出的,它改进了randomForest中结点特征选择的偏向性问题,目前的应用还不是很广泛。我们从预测性能、参数优化、运行内存需求和运行时间四个方面,对这三种算法进行了比较,结果显示,randomForest和cforest的性能优于SVM,且其不需要参数优化;randomForest与cforest相比,其性能在本课题并没有明显不同,且randomForest运行时间更短,对计算机内存的要求更小,因此,我们推荐使用randomForest。 最后,为了检验预测模型的可靠性,我们使用胃癌遗传易感性相关多态位点和来自Swiss-Prot的更新数据作为测试集进行测试。结果表明,我们的模型是比较可靠的。
其他文献
随着光化学的发展,偶氮苯基生色基团作为光敏基团被广泛引入到各种材料和分子的结构中。本研究选取4,4′-二氨基偶氮苯作为光敏基团考察了在紫外光照射前后4,4′-二氨基偶氮
在医学临床上,有相当多的医疗器件须与血液接触。血液一旦与外源固体材料接触,就有可能发生细胞的附着和激活、蛋白质的吸附和变性、细胞的附着和激活等生物反应,导致凝血、
二氧化碳捕集系统的整体能耗较高,主要原因在于CO2吸收过程需要在较低的温度条件(近40℃)下进行,而CO2解吸过程需要在较高的温度条件(110~140℃)下完成。解吸过程需要的高品位能量是由来自汽轮机的蒸汽提供的,此外,CO2在压缩过程中为了减少功耗,需要被冷却。这一系列的加热冷却过程导致了能源的消耗,使得CO2捕集系统能耗持续在较高水平上。针对这一问题,本文对CO2捕集系统进行能量分析及换热网络