基因间语义相似度计算研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wjsxyxjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物学领域内,为了避免因自然语言描述的二义性而产生的语义混乱,生物学家引入了本体论对生物学术语概念进行规范化描述。本体论的引入促进了学科内领域知识的共享和生物信息处理技术(如基因自动标注等)的研究。目前,已经有很多生物学本体被提出。其中,最引人注目的是1988年基因本体联合会发起的基因本体(Gene Ontology, GO)项目,该项目旨在用基因本体对所有物种的生物数据库中的基因产物进行注解。作为一种结构化的生物学术语语义词典,基因本体在生物学领域内已经得到了广泛的应用。其中,通过计算注释基因的相似度来预测未知基因的功能是基因本体的一个重要应用,这种方法不仅可以弥补传统的依赖微阵列技术研究方法的不足,而且基因本体赋予基因产物丰富的语义信息可以提高生物学家对基因功能预测的准确率和对基因功能的理解。因此,从GO出发,通过计算基因的语义相似性来研究基因的功能已经成为对生物实验法分析基因功能的重要补充。  本文探讨了国内外基因语义相似性的研究现状,研究了基因语义相似度算法的分类方法。同时,对目前常用的两种方法(成对比较法和组比较法)的四种典型模型(术语对,集合、图和向量)及其优缺点进行了详细介绍。组比较法往往会忽略术语间的语义关联,而术语法是通过计算基因术语间的相似度来计算注释基因的相似度,从而弥补了组比较法的缺陷。因此,本文研究的重点是术语法。主要研究内容如下:  1.基因术语语义相似度研究  针对目前基因术语语义相似性度量方法的不足,充分考虑基因本体中所包含的语义信息,包括语义密度、语义距离和语义层次,并借助Li等人提出的基于WordNet的词汇语义相似度计算方法,本文提出了一种基于GO多语义因素的基因术语相似性度量方法。通过实验,并与其它方法进行比较分析,结果证明本文的方法得到的结果精度更高。  2.基因语义相似度研究  在基因术语相似度计算研究的基础上,通过引入基因术语概念细分程度的定义,改进了Wang等人提出的基因相似度计算方法;另外,针对传统向量空间模型存在的不足,将基因术语相似度计算与向量空间模型相结合,本文提出了一种利用术语语义相似度扩展向量模型的基因相似度计算方法。利用取自酵母菌基因数据库的生物代谢路径数据进行的实验结果表明本文提出的两种方法是有效的。
其他文献
随着计算机网络技术和多媒体信息处理技术的迅速发展,我们能够越来越方便地创造、存储、编辑和传播数字多媒体信息。但是,技术发展的同时也带来了一系列信息安全问题,如多媒体信
无线传感器网络是一种新型的信息平台,它由在一个广阔的监测域内部署密集的传感器节点组织而成,这些节点具有价格低廉,自组织能力等特点。传感器节点将感知信息通过多跳路由的
随着全球信息化的推进,我们的社会正在步入一个信息化的社会,政府机构以及各行各业都对信息资源、信息技术以及信息产业的依赖程度越来越大,对存储空间的需求也在飞速地增长
粗糙集理论作为一种重要的智能信息处理技术,在知识获取领域得到了广泛应用。经典粗糙集理论的核心概念是上近似集和下近似集,是应用精确集合包含来定义上近似集和下近似集的。
信息通信技术的融合与发展已经从多方面推动人们生活方式的变革,购物方式的转变便是其中典型的一个。伴随着电子商务的不断发展和完善,加上网上购物有着传统购物不具有的便捷、
在生物特征识别领域,人脸识别是最具潜力的一个研究课题。由于它涉及诸多学科领域的知识,同时在国家安全、军事安全和经济领域等有着广阔的应用前景,因而有巨大的理论意义和实际
病毒和病毒防御技术一直是互相对抗同时又互相促进地发展着。病毒总数量的剧增和病毒进化程度的提高,使得传统病毒防御系统越来越难以及时地发现和清除病毒,病毒的误报和漏报
密码学分为传统密码学和现代密码学,其主要任务就是在不安全的环境中保证通信的安全。在密码学中,无论哪种密码体制,密钥的安全性决定了整个密码系统的安全性,密钥的泄漏意味
利用数字图像处理技术进行土壤物理属性及形态结构特征的研究是当前农业科学与计算机科学的热点问题之一。研究土壤物理属性在土质研究与改良、土工力学等方面具有重要的意义
样例选择是数据挖掘中一个重要的数据预处理步骤。大多数样例选择算法选择边界样例,边界样例的不确定性大,包含的有用信息更多,因此对分类更重要。目前存在的多数样例选择方法都