论文部分内容阅读
语义网作为一种可以建立在理解的基础上进行人与机器智能交互的网络,能够实现从“内容匹配”到“机器理解”的跨越,已成为人们未来设想和期望的网络。本体作为一种描述语义和知识的概念模型,是实现语义网信息智能交互的重要媒介和核心组成部分。目前,本体已经在一些特定领域中得到了广泛应用,例如知识工程、语义检索等领域,但本体的构建工程量非常巨大,而且主要依靠手工完成,所以非常消耗资源。因此,需要一种本体学习的方法来智能或半智能的方式创建一个新的本体或者基于现有本体进行扩展,以提高构建本体的效率以及构建本体的智能程度,减少人工的参与和本体构建的工程量,同时还可以减少人工在本体构建过程中出现的主观问题。领域本体学习中,领域本体概念的提取非常关键,因为领域本体概念间的关系对本体概念具有依赖性,所以本体概念间关系提取的准确率和完备性很大程度上取决于领域本体概念的准确率和完备性。为了提高领域本体概念的提取质量,本文将关联规则和语义规则引入本体领域概念提取中。本文研究的主要内容如下:候选领域本体概念的提取。由于领域本体概念主要由名词和名词性短语构成,利用分词系统对语料进行处理处理过程中,只提取具有能构成名词、名词性短语词性的词作为候选本体概念。同时用物理关系位图记录分词后的候选本体概念之间的物理相邻关系,以应用于关联规则的频繁项挖掘技术。提出领域隶属度的概念,并对其形式化定义和计算模型的构建。通过计算术语之间的关系构建概念关系矩阵,然后基于概念关系矩阵通过术语在研究领域中的深度和广度值,定量分析术语与领域的隶属程度,即进行领域隶属度检查。制定语义规则。基于前人对汉语的研究成果和现有汉语处理工具对词性进行标注,然后结合自然语言的句法、词法规则和分词系统的内在特性,对名词和名词性短语结构进行分析和提炼,制定语义规则。领域本体概念的生成。候选领域本体概念集是一个粗糙的本体概念集合,为了得到高准确率和高完备性的领域本体概念集合,需要对候选本体概念集进一步优化。利用相关性和一致性检查技术过滤领域无关术语和领域通用术语;通过领域隶属度过滤隶属度低于设定阈值的术语(包括合成术语和非合成术语);最后结合语义规则对复合术语集合中不能构成名词和名词性短语的术语进行过滤,提取领域本体概念。