论文部分内容阅读
本体作为一种共享的概念化模型,在人工智能、知识工程、信息检索和语义网等许多领域中发挥着越来越重要的作用。手工构建本体是一件繁琐辛苦的任务,需要耗费大量时间和费用,且需要领域专家的参与,已不能满足本体应用的需要。因此,自动或半自动构建本体的本体学习技术成为当前研究的热点。
本体学习是指利用统计、机器学习、自然语言处理等众多学科技术自动或半自动地从已有的文本、结构化或半结构化文档、数据库等数据源中实现本体的构建。本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,目前研究较多的是概念以及概念间关系的获取。现有本体学习方法以基于统计的方法为主,较多采用领域相关度及领域一致度相结合的方法抽取概念,关联规则方法抽取概念关系对。这些方法都是基于概念在领域中的高频出现来进行抽取的,其结果中含有较多冗余,准确度欠佳。
针对上述问题,本文通过引入对数似然比统计量,对传统方法抽取结果进行过滤以提高准确率。概念抽取过程中,使用领域相关度与领域一致度结合的方法获取初始领域概念,然后利用对数似然比衡量概念的领域重要程度,过滤冗余概念,获取最终领域概念。非分类关系的抽取过程中,在关联规则发现概念关系对的基础上,采用结合对数似然比方法检验概念间的相关性抽取语义关系对,并尝试获取关系标签。通过使用VFICF(Verb Frequency-Inverse Concepts Frequency)方法抽取领域动词作为候选关系标签,并再次利用对数似然比方法映射关系标签与概念对,获取非分类关系。
另外,在概念关系学习中,本文对分类关系的抽取方法进行了探索。利用概念上下文信息建立向量空间模型,计算各向量之间的余弦值作为概念间的语义相似度以衡量概念间的距离。然后根据层次聚类法思想,采用一种基于最小生成树的分类关系抽取方法,获得分类关系。
为验证模型的有效性,本文完成了一个本体学习原型系统,将传统本体学习模型与结合对数似然比检验过滤的本体学习进行对比实验。实验结果表明,改进的模型能够有效的提高概念、关系的查准率,证实了本文提出的学习方法的有效性。