基于本体与基因网络的致病基因预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liuhaoyingying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,出现了许多高通量技术预测基因功能的方法,但是从这些方法产生的大量的候选基因集合中检测致病基因仍是一个十分艰巨的挑战,如果直接使用生物学实验验证则需要消耗大量人力物力。随着数据的积累,人们逐渐发现致病基因具有模块性,功能相同或者相似的基因编码的蛋白质,在蛋白质相互作用网络中相互靠近。利用已被证实的疾病和基因的关系,使用计算方法来预测候选致病基因通常能起到很好的效果,如计算候选基因和已知致病基因集合中的基因的相似性,然后根据相似性排名对候选基因进行排序,从而使生物学实验有针对的对基因进行实验验证,降低检测成本。本文主要以生物医学本体为中心,整合了九种不同生物医学数据库,构建了由78786个生物学实体或概念组成的一个双层异构网络,这个网络中包含本体术语之间的105875条有向边,以及术语到基因,基因和基因之间组成的398642条无向边。在构建网络时,使用超级叙词表等映射工具对九种数据库中不同类型的标识进行转换和去冗余;设计了一套整合不同关系证据类型的方案,根据边的关系证据集合的不同,为每条边赋予了不同的权值,最终构建的网络为带权的双层异构网络。依据网络中边的端点的不同,将边分为了七个大类,并验证了每一类的权值改变对基因预测最终的效果有直接影响,为每大类属于的边设置了一个特征向量,使用有监督的随机游走训练每个大类的特征权值,使得组合的权值能够更准确的进行致病基因预测,同时基于有监督随机游走算法,提出了拉普拉斯正规化的有监督随机游走,并在多次试验后验证了正规化的有监督随机游走在预测权值上优于有监督随机游走,针对正规化算法复杂度过高的问题,提出了简化版的正规化有监督随机游走。在构建的双层异构网络上分别进行随机游走,有监督随机游走,简化正规化随机游走的验证,最终有监督随机游走的AUC(Area Under roc Curve)比普通随机游走提高了0.8%,正规化随机游走AUC比普通随机游走提高了2.3%。
其他文献
图形用户界面(Graphical User Interface)是计算机系统中的一种人机交互技术,该技术的重要内容包括:丰富的图形图像信息、直观的表达方式和用户交互。随着嵌入式设备在人们日
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。作为实体关系抽取的重要分支,人物关系抽取问题受到许
目前,键盘和鼠标是被运用最广泛的人机交互设备,但是其在使用友好度,体验度上面有所局限性。于是触摸屏便成为继键盘、鼠标之后最为普遍接受的输入方式,它方便了人们对计算机
计算机网络的广泛应用给我们带来了方便的同时,也产生了许多意想不到的问题,计算机安全就是其中一个突出的问题。各种恶意代码如病毒,蠕虫,木马等的广泛传播更是对个人用户及
随着互联网和移动手持设备的普及,网络视频已经成为互联网领域最重要的应用之一。网络视频广告带来的巨大利益成为了很多运营商的主要收入。但由于视频中插入过多无关广告,强
随着现代生物学和医学的发展,生物免疫学的研究得到了极大拓展,同时也使免疫学产生了许多交叉学科。近年来,计算机科学和其它工程科学与免疫学交叉研究逐渐成为国际研究领域
随着多媒体技术和网络技术的发展,视频、图像等多媒体信息的传输业务日益广泛的应用于人们的生活。然而在信息的传输通道中,无论是IP网络还是无线移动网络信道,都不可避免的
本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对
本文主要针对当前工作流管理系统在实际应用中集成能力差、柔性差、互操作性不高、模型缺乏对分布式环境的支持等缺点,提出了基于SOA的工作流管理系统。SOA和Web服务作为一种
利用数据的相似性对海量数据进行检索是计算机科学中的一个热点研究问题,在多个计算机领域应用广泛。利用数据的相似性进行检索的方法分为两类,最邻近检索和近似最邻近检索。