FrameNet中面向篇章的有定的零形式缺位填充

来源 :山西大学 | 被引量 : 0次 | 上传用户:jhyh001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
零形式框架元素指的是句子中未显式表达的语义角色,这些语义角色通常是指既不能通过语义角色标注,也不能作为句子中谓词的依存成分的框架元素。在语篇场景中,有的框架元素能够建立各语义论元之间的联系,这种框架元素缺失时被称为有定的零形式框架元素。缺位填充则是针对缺失的语义角色在篇章上下文中为其识别出显式的先行成分。因此,有定的零形式缺位填充旨在针对篇章中有定的零形式,为其找到显式填充项,这在自然语言处理的深层语义分析和推导句子的核心依存图中均起到关键作用。在FrameNet中,有定的零形式缺位填充可以看作是一种特殊的语义角色标注任务。传统的语义角色标注只针对句子中显式表达的语义论元标注语义角色,对于未显式表达的语义角色部分则不予标记,而这些未标记的语义角色中有很大一部分对于联系篇章中各个局部语义论元之间的关系是必不可少的,因此,发现这些缺失的语义角色,无论是对自然语言处理的应用领域还是推动篇章理解,都具有特别积极的意义。本文借助SemEval-2010 Task 10中NI Task提供的语料,在已识别的零形式的基础上,运用机器学习的方法研究了有定的零形式缺位填充。主要研究成果如下:(1)本文根据统计训练集中有定的零形式框架元素填充项的词性,定义了一个选择先行语候选词的规则,通过对比的方法确定候选词选择的范围,以统计和规则相结合的方法构建一个规模最小覆盖范围最大的候选词集合。(2)基于分类思想,在有定的零形式缺位填充任务中引入语义特征,在词和语义层面选择了十二个与零形式紧密联系的特征,通过实验验证了语义特征对有定的零形式缺位填充的有效性。(3)将最佳的候选词集合和特征组合应用到NI Task测试语料中,实现了有定的零形式缺位填充的自动标注。本文的研究进一步丰富了有定的零形式缺位填充的方法,将任务提升到语义层面上来。实验证明,本文将句法和语义相结合的方法,对于有定的零形式缺位填充非常有帮助,同时也为自然语言处理中篇章的深层语义分析提供的了一种新的技术方法。
其他文献
随着互联网的快速发展和宽带网络的逐步普及,流媒体最近几年成为了发展的热点,而视频点播系统(VOD系统)则是目前流媒体应用的主要表现形式之一。各种形式的VOD应用将给INTERN
多标记学习是机器学习领域中的重要研究方向之一,它能够直观地反映多义性对象所具有的多种语义信息,其学习的任务是为待学习样本预测其对应的类别标记集合。近年来,研究学者
WWW和流媒体是现今Internet上最流行的两种应用。通过WWW网络用户可以很迅速、方便地取得丰富的信息资料,包括数字音频和视频文档资料。近年来,流式网络多媒体正获得越来越广
随着人类社会生活对Internet需求的日益增长,网络安全逐渐成为Internet及各项网络服务和应用进一步发展所需解决的关键问题。入侵检测作为一种积极主动防御的网络技术,已经成
冰层厚度历来是冰情检测中的重要指标之一,及时准确的了解冰层厚度可以有效预防冰凌等自然灾害,为冰上作业提供安全保障。近年来,随着电子和计算机技术的发展,对于冰层厚度测
越来越多的用户喜欢通过微博来实时分享自己的观点或者表达自己的情感,因此,面向微博的意见挖掘或情感分析成为了研究热点。其中,微博主客观分类研究是意见挖掘和情感分析研
在当今信息社会中,信息就意味着商机。随着对于信息的需求越来越强烈,人们已经不满足于通过互联网、邮件、电视等媒体获得信息了,他们对于信息的即时性要求越来越高。对于外界的
随着信息技术的发展,数据量超过1012的海量数据已经随处可见并且数据量还在不断增长。从成本和存储容量等因素综合考虑,目前人们大都采用将磁带库、光盘库等第三级存储设备作
近几年来,计算机支持的协同工作作为一个重要的研究领域越来越受到人们的重视,目前正处于蓬勃发展之中。本文研究CSCW的一个分支――实时协同文本编辑系统。实时协同文本编辑
随着知识经济的推进和信息时代的日益临近,同时在网络技术革新的推动下,存储行业既迎来大好的市场前景又面临巨大技术挑战。数据量的指数级增长和基于高速网络的数据应用要求