论文部分内容阅读
遗传疾病的致病基因预测问题一直是人类健康领域面临的重大挑战之一。随着人类基因组计划的顺利完成,各种生物数据得到快速增长,采用计算的方法从这些数据中挖掘基因与疾病之间关系的研究得到越来越多的关注。当前大部分基于计算的疾病基因预测方法采用疾病基因的模块性假设,即导致相同或相似疾病的基因在蛋白质相互作用网络中拓扑位置相互靠近。基于这一假设提出的随机游走预测方法利用蛋白质相互作用网络的全局拓扑特性来计算基因之间的相似性,然后对候选基因打分并排名。与利用局部拓扑特性的计算方法相比,随机游走方法有较好的预测效果,但是基于疾病基因模块性假设的方法仅仅从蛋白质相互作用网络的拓扑角度来计算基因之间的相似性,并没有利用其他的生物网络,比如疾病表型相似性网络。基于协同过滤方法,本文集成三种生物网络来预测疾病的致病基因,即蛋白质相互作用网络、疾病-基因关系网络和疾病表型相似性网络。首先根据疾病基因的功能相似性假设计算基因之间的相似性;其次运用协同过滤方法计算疾病和候选基因之间的关系;最后把计算出的疾病-基因关系作为先验知识,根据疾病基因的模块性假设,采用随机游走方法对所有候选基因进行打分并排序,选取排名靠前的基因作为预测结果。本文方法既利用了疾病基因的模块性假设和功能相似性假设,又集成了疾病表型相似性网络数据。留一交叉验证结果表明本文方法的ROC曲线优于随机游走方法和PRINCE方法,文献挖掘结果表明本文方法的预测结果准确度较高。