论文部分内容阅读
随着人类基因组计划的顺利完成,出现了许多高通量技术预测基因功能的方法,但是从这些方法产生的大量的候选基因集合中检测致病基因仍是一个十分艰巨的挑战,如果直接使用生物学实验验证则需要消耗大量人力物力。随着数据的积累,人们逐渐发现致病基因具有模块性,功能相同或者相似的基因编码的蛋白质,在蛋白质相互作用网络中相互靠近。利用已被证实的疾病和基因的关系,使用计算方法来预测候选致病基因通常能起到很好的效果,如计算候选基因和已知致病基因集合中的基因的相似性,然后根据相似性排名对候选基因进行排序,从而使生物学实验有针对的对基因进行实验验证,降低检测成本。本文主要以生物医学本体为中心,整合了九种不同生物医学数据库,构建了由78786个生物学实体或概念组成的一个双层异构网络,这个网络中包含本体术语之间的105875条有向边,以及术语到基因,基因和基因之间组成的398642条无向边。在构建网络时,使用超级叙词表等映射工具对九种数据库中不同类型的标识进行转换和去冗余;设计了一套整合不同关系证据类型的方案,根据边的关系证据集合的不同,为每条边赋予了不同的权值,最终构建的网络为带权的双层异构网络。依据网络中边的端点的不同,将边分为了七个大类,并验证了每一类的权值改变对基因预测最终的效果有直接影响,为每大类属于的边设置了一个特征向量,使用有监督的随机游走训练每个大类的特征权值,使得组合的权值能够更准确的进行致病基因预测,同时基于有监督随机游走算法,提出了拉普拉斯正规化的有监督随机游走,并在多次试验后验证了正规化的有监督随机游走在预测权值上优于有监督随机游走,针对正规化算法复杂度过高的问题,提出了简化版的正规化有监督随机游走。在构建的双层异构网络上分别进行随机游走,有监督随机游走,简化正规化随机游走的验证,最终有监督随机游走的AUC(Area Under roc Curve)比普通随机游走提高了0.8%,正规化随机游走AUC比普通随机游走提高了2.3%。