论文部分内容阅读
随着计算机应用和网络技术的不断发展,互联网上积累了大量的文本知识,如何从互联网上获取到用户真正想要的知识是一个非常紧迫而且困难的问题。如何从纷繁复杂的文本信息获取到有用的知识,是目前知识获取领域十分重要和紧迫的课题。知识领域中有一个重要的组成部分就是概念,概念是知识中推理和演绎的基础,所以概念知识的获取和验证是一个重要的基础课题。
本文首先介绍了概念获取与验证系统提出的背景和意义,对国内外的研究状况和研究方法和本系统的研究内容进行了简单的介绍,并详细介绍了我们所研究和实现的概念获取与验证系统的框架和运行流程。本系统包括了概念词候选串的获取,候选概念词串的界定,候选概念词的验证,系统的自学习和自更新几个部分。本文所研究和实现的重点包括以下几个方面:在候选概念词串的获取方面,综合使用了句式模板匹配和词语网络抽取的方法;在概念词的界定方面,使用了自学习的算法来获得和扩展概念词的界定词;在候选概念词的验证方面,综合使用了概念词构件和概念词规则的验证,重点研究了概念词的构件和概念词构词规则的自学习算法,在概念词构词规则的验证过程中本系统提出了可以综合利用概率模型来推理的框架来进行验证抽取的框架。最后本文对本系统的实验情况进行了介绍,提出了本系统的不足和今后的改进方向。
本文的创新点如下:
1)在候选概念串的获取阶段,综合使用了句式模板抽取和词语网络抽取相结合的方法来进行候选概念词的抽取,提高了候选概念词获取的质量。
2)在概念词构件和概念词构词规则的学习中,不仅利用手工添加了一些极其常用的概念词构件和概念词构词规则,而且主要地设计已经确认的概念词来自动学习更多的构件词和概念词的构词规则。
3)在概念词界定词的学习中,不仅手工添加了一些极其常用的界定词,而且更主要地设计了新的方法从已经确认的概念词中自动学习更多的概念词界定词。
4)在概念词的构词规则验证阶段,提出了利用概率模型推理的方法来进行概念词构词规则验证抽取的原理和方法,并在实现匹配验证的基础上设计易于利用概率模型验证抽取的框架。