论文部分内容阅读
零形式框架元素指的是句子中未显式表达的语义角色,这些语义角色通常是指既不能通过语义角色标注,也不能作为句子中谓词的依存成分的框架元素。在语篇场景中,有的框架元素能够建立各语义论元之间的联系,这种框架元素缺失时被称为有定的零形式框架元素。缺位填充则是针对缺失的语义角色在篇章上下文中为其识别出显式的先行成分。因此,有定的零形式缺位填充旨在针对篇章中有定的零形式,为其找到显式填充项,这在自然语言处理的深层语义分析和推导句子的核心依存图中均起到关键作用。在FrameNet中,有定的零形式缺位填充可以看作是一种特殊的语义角色标注任务。传统的语义角色标注只针对句子中显式表达的语义论元标注语义角色,对于未显式表达的语义角色部分则不予标记,而这些未标记的语义角色中有很大一部分对于联系篇章中各个局部语义论元之间的关系是必不可少的,因此,发现这些缺失的语义角色,无论是对自然语言处理的应用领域还是推动篇章理解,都具有特别积极的意义。本文借助SemEval-2010 Task 10中NI Task提供的语料,在已识别的零形式的基础上,运用机器学习的方法研究了有定的零形式缺位填充。主要研究成果如下:(1)本文根据统计训练集中有定的零形式框架元素填充项的词性,定义了一个选择先行语候选词的规则,通过对比的方法确定候选词选择的范围,以统计和规则相结合的方法构建一个规模最小覆盖范围最大的候选词集合。(2)基于分类思想,在有定的零形式缺位填充任务中引入语义特征,在词和语义层面选择了十二个与零形式紧密联系的特征,通过实验验证了语义特征对有定的零形式缺位填充的有效性。(3)将最佳的候选词集合和特征组合应用到NI Task测试语料中,实现了有定的零形式缺位填充的自动标注。本文的研究进一步丰富了有定的零形式缺位填充的方法,将任务提升到语义层面上来。实验证明,本文将句法和语义相结合的方法,对于有定的零形式缺位填充非常有帮助,同时也为自然语言处理中篇章的深层语义分析提供的了一种新的技术方法。