论文部分内容阅读
本体作为语义层次上的知识表示模型,自从被提出后就受到人们的广泛关注。目前国外已经有一些本体及相关应用,如WordNet和Cyc等。但是目前本体的构建主要依靠领域专家和本体工程师手工进行,费时费力,因此人们开始研究如何从数据源中自动或半自动地构建本体,这一技术被称为本体学习技术。
概念是本体的基本组成元素,概念间的分类关系构成了本体的主干,因此在本体学习中概念的获取和概念间的分类关系的获取是本体学习的重点,也是当前本体学习研究中的重点。自由文本是世界上数据量最为丰富的知识源,也是本体学习中最受关注的一种。本文的研究内容是如何从自由文本中获取概念并建立概念间的分类关系。针对这两个问题本文提出了一种概念模型和概念获取方法以及在此基础之上的两种概念分类关系获取方法,并对这些方法进行了实验。
本文的主要的创新点如下:
(1)提出了基于特征词集和同义词集的概念模型以及相应的概念生成方法。使用该概念模型和概念生成方法可以有效避免由于同义词导致的概念重复生成问题,为更高级的知识获取和应用奠定了良好的基础。
(2)提出了基于特征词包含关系的概念分类关系获取方法。该方法通过比较概念词的上下文统计特征来判别概念间的分类关系。虽然该方法目前的实验结果并不理想,但为今后设计更完善好的概念统计特征方法奠定了基础。
(3)提出了同义词和句式匹配相结合的概念分类关系获取方法。通过将同义词和基于句式匹配的分类关系获取方法相结合,不仅显著增加了概念分类关系的获取数量,而且保持了较高的正确率,由此显示出综合方法的优越性。