论文部分内容阅读
在信息资源爆炸性增长的环境下,信息抽取成为一种从海量资源中获取有价值信息的重要手段。事件时序关系识别是事件信息抽取的后续任务,对问答系统、信息抽取和文本自动摘要等自然语言处理应用起重要作用。本文主要从中文事件时序关系语料库构建、事件时序关系识别及事件时序关系推理三个方面进行研究,主要研究内容如下:(1)中文事件时序关系语料库的标注与构建语料库建设是自然语言处理领域的基础性研究工作。针对中文事件时序关系语料资源匮乏的问题,本文以ACE2005中文语料库为基础,借鉴Time ML体系的时序关系分类标准,构建了一个稠密型的中文事件时序关系语料库。(2)有监督中文事件时序关系识别将事件时序关系识别看作分类问题,本文采用有监督机器学习方法来识别事件之间的时序关系。在现有英文相关研究所用特征的基础上,根据中文的特点引入触发词语义、特殊词、事件论元、事件因果关系及事件同指关系等有效特征,用于提高识别系统的性能。实验表明,这几类特征对中文事件时序关系识别均有较大帮助。(3)基于全局优化的中文事件时序关系推理针对有监督机器学习方法存在的缺陷,本文提出一个全局推理模型来解决这一问题。将事件时序关系全局优化转化成整数线性规划问题,并使用了自反性、传递性、同指性、时间表达式比较、时序连接词、事件类型对等多个约束条件进行优化。实验结果表明,全局推理方法要明显优于局部强规则推理方法和分类器方法,很好地解决了分类器方法存在的问题。本文从语料库构建和关系识别两个方面对中文事件时序关系进行了探索性研究。虽然所提方法还较为简单,但将有利于该领域以及相关领域的进一步研究。