论文部分内容阅读
随着自动文摘技术在自然语言处理领域中的不断发展,越来越多的研究者开始关注如何准确、高效地获取文本的文摘。近年来,事件这一概念在自然语言处理领域引起了学者的高度重视。但在自动文摘技术方面,基于事件的自动文摘研究并不多。因此,本文从事件粒度下事件要素的角度出发,研究基于事件要素网络的自动文摘抽取方法,主要研究工作分为以下两个部分:1.事件要素的缺省补全研究。事件可以定义为一个六元组的形式,对于一篇叙事类的文本,经常会省略一个或几个事件要素,而省略的事件要素通常会出现在其他事件中。本文对事件要素的缺省补全研究主要针对的是对象要素、时间要素和环境要素(地点要素)。通过对各事件要素的观察与分析,对于时间要素和环境要素(地点要素)、对象要素,本文均采用结合同类事件触发词表和基于上下文结构规则的方法进行缺省补全,但使用方式不同。实验结果表明,上述事件要素的缺省补全均取得较好的效果。2.基于事件要素网络的自动文摘的抽取方法研究。对事件要素进行缺省补全后,首先构建以事件要素为节点的事件要素网络,并结合图论的相关知识,计算事件要素网络中各个节点的重要度,得到各个事件要素的重要度,由此可以间接地得到每个句子的重要度;然后利用社区划分方法解决多主题划分问题;最后依据事件相似度进行冗余处理,并将得到的文摘句按照它们在原文本中出现的顺序依次输出,得到文本的文摘。实验在CEC语料库上进行,结果表明,本文自动文摘方法的召回率和准确率都取得了较好的效果。