论文部分内容阅读
本文针对汉语框架语义角色自动标注的研究是来源于国家自然科学基金项目“汉语框架语义依存图自动抽取关键技术研究(No.60970053)”。该项目的汉语框架语义依存图自动抽取是实现汉语句子语义分析的一种新途径,因此汉语框架语义角色标注对实现汉语框架语义分析具有重要的意义。目前语义角色标注的研究大多基于统计机器学习模型,研究表明制约语义角色标注性能的主要因素为统计机器学习中的特征选择问题。本文基于汉语框架网,针对特征选取问题,利用树条件随机场(Tree Conditional Random Fields, T-CRF)模型,研究了基于依存特征的汉语框架语义角色标注。主要研究内容包括:(1)研究了基于词、词性及其组合特征的基线框架语义角色标注模型。其中选取词、词性及其组合为基本特征,按照窗口大小不同构建了3种基线特征模板,最终基线模型在“发明”、“查看”、“拥有”框架下的最优F值分别为:55.36%,52.26%,66.19%。(2)研究了基于依存特征的汉语框架语义角色标注模型。在基础特征的基础上,加入当前节点的依存父子节点、父子依存关系及其组合特征,并依据特征组合及窗口大小不同构建了21种扩展特征模板,最终在“发明”“查看”“拥有”框架下获得的最优F值分别为:58.30%,55.29%,67.24%。(3)研究了汉语框架语义角色标注中的特征贡献情况。实验结果显示,在词、词性及其组合特征的基础上融入依存句法层面的特征,能够提升汉语框架语义角色标注的F值;进一步比较了依存特征对不同长度框架语义角色的标注影响,发现依存特征对较长框架语义角色标注的结果较好,这其中子节点比父节点特征更为重要,依存关系比依存节点更为重要。本文的主要贡献在于全面研究了依存句法特征中的父子节点、父子依存关系及其组合特征对汉语框架语义角色标注的作用,这些结论都将为进一步面向大规模、开放式的汉语框架语义角色标注研究提供了重要的特征选择依据。