论文部分内容阅读
在生物学领域内,为了避免因自然语言描述的二义性而产生的语义混乱,生物学家引入了本体论对生物学术语概念进行规范化描述。本体论的引入促进了学科内领域知识的共享和生物信息处理技术(如基因自动标注等)的研究。目前,已经有很多生物学本体被提出。其中,最引人注目的是1988年基因本体联合会发起的基因本体(Gene Ontology, GO)项目,该项目旨在用基因本体对所有物种的生物数据库中的基因产物进行注解。作为一种结构化的生物学术语语义词典,基因本体在生物学领域内已经得到了广泛的应用。其中,通过计算注释基因的相似度来预测未知基因的功能是基因本体的一个重要应用,这种方法不仅可以弥补传统的依赖微阵列技术研究方法的不足,而且基因本体赋予基因产物丰富的语义信息可以提高生物学家对基因功能预测的准确率和对基因功能的理解。因此,从GO出发,通过计算基因的语义相似性来研究基因的功能已经成为对生物实验法分析基因功能的重要补充。 本文探讨了国内外基因语义相似性的研究现状,研究了基因语义相似度算法的分类方法。同时,对目前常用的两种方法(成对比较法和组比较法)的四种典型模型(术语对,集合、图和向量)及其优缺点进行了详细介绍。组比较法往往会忽略术语间的语义关联,而术语法是通过计算基因术语间的相似度来计算注释基因的相似度,从而弥补了组比较法的缺陷。因此,本文研究的重点是术语法。主要研究内容如下: 1.基因术语语义相似度研究 针对目前基因术语语义相似性度量方法的不足,充分考虑基因本体中所包含的语义信息,包括语义密度、语义距离和语义层次,并借助Li等人提出的基于WordNet的词汇语义相似度计算方法,本文提出了一种基于GO多语义因素的基因术语相似性度量方法。通过实验,并与其它方法进行比较分析,结果证明本文的方法得到的结果精度更高。 2.基因语义相似度研究 在基因术语相似度计算研究的基础上,通过引入基因术语概念细分程度的定义,改进了Wang等人提出的基因相似度计算方法;另外,针对传统向量空间模型存在的不足,将基因术语相似度计算与向量空间模型相结合,本文提出了一种利用术语语义相似度扩展向量模型的基因相似度计算方法。利用取自酵母菌基因数据库的生物代谢路径数据进行的实验结果表明本文提出的两种方法是有效的。