论文部分内容阅读
本体的概念最初起源于哲学领域,古希腊哲学家亚里士多德在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。20世纪90年代以来,人们将本体的概念引入人工智能、知识工程和图书情报等领域。本体现被广泛应用于计算机科学及其应用领域,因为它能有效地解决知识工程中知识共享和重用两大问题。作为本体应用研究的一项基础性工作——本体构建,也吸引了国内外众多科研人员的关注。目前,本体的构建大都由领域专家手工编制,虽然该方法较为准确,但是工程复杂、费时、费力,易受创建者主观意识的限制。然而面向语义、知识的自动构建本体,难度很大。信息技术的飞速发展,已有的领域本体已不满足实际的需求,因此如何扩展本体也显得至关重要。本文将语义字典——WordNet和聚焦爬虫等相关技术应用到领域本体的构建过程中,进行了领域本体的半自动构建的研究。以WordNet为中心,聚焦爬虫为辅助,通过计算概念与概念之间相似度,确定领域的相关概念。然后,利用基于最小距离法的凝聚的层次聚类算法生成概念之间的关系,将新增概念与领域本体合并。最后,通过本体编辑工具对其进行修改和完善。本文获得的主要研究成果有:(1)通过介绍本体的概念、本体构成及分析已有本体构建方法,提出了基于WordNet和聚焦爬虫相结合的半自动本体构建方法。(2)以WordNet作为语义字典,利用其自身的语义关系,通过计算两个概念之间的信息熵,得到概念间的语义相似度。(3)利用聚焦爬虫作为大型语料库计算概念在上下文中出现的频率,计算概念间语义相似度,一定程度上弥补了数据稀疏问题。(4)根据先前计算得到的概念相似度,采用基于最小距离法的凝聚的层次聚类算法,依据自定义的规则进行本体集成。(5)开发了本体编辑工具MyProtégé,用户可以根据实际情况,进一步修改、完善本体。