基于支持向量机的汉语框架语义角色自动标注

来源 :山西大学 | 被引量 : 3次 | 上传用户:ldw521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言研究的热点已经转到了语义角色标注上来。本文以汉语框架语义知识库为基础,结合汉语自身的特点,重点研究了汉语框架语义角色自动标注问题,为以后构建大规模的语料库,推动中文信息检索、自动问答、信息抽取等自然语言处理技术的发展,做出了有益的探索。由于汉语的完全句法分析器的性能达不到使用阶段,本文将汉语框架语义角色看做是以词为标注单位的序列标注问题,使用支持向量机作为分类器来训练模型,并将词层面特征和基本块层面特征融合到标注模型中。本文的语义角色标注任务为:给定目标词和目标词所属的框架,在句子中自动识别出框架元素并为其标上相应的框架语义角色。本文从汉语框架语义知识库中挑出25个框架作为实验语料,并在此实验语料上进行了3组2折交叉验证,最后用这3组2折交叉验证的均值作为我们模型的性能。实验中,我们首先为每类候选特征提供几种窗口大小,然后用正交表对特征及其窗口的大小进行选择。本文构建了两类语义角色标注模型:一类是基于词特征的语义角色标注,在把语义角色的识别和分类分开进行时,我们得到了59.65%的F值,把识别和分类联合起来进行实验时,我们得到的性能是58.72%;另一类是基于基本块特征的语义角色标注,在语义角色识别和分类分开进行时我们得到了59.67%的F值,识别和分类联合进行时得到了58.92%的F值。实验结果表明:(1)将语义角色标注分为两步进行比两步联合起来进行的性能要好;(2)加入基本块信息后,语义角色识别和分类的性能都有所提高,但提高不大;(3)两类模型都表现出了明显的高准确率低召回率的现象。
其他文献
全局优化问题广泛见于图像处理、化学工程设计及控制、网络交通、分子生物学、金融、经济模型、数据库、环境工程学等.对于弱凹规划问题(目标函数为二次函数与凸函数的差)在