论文部分内容阅读
作为自然语言处理的一个研究重点,语义分析旨在将人类的自然语言转化为计算机能够理解的形式化语言。由于深层语义分析的复杂性,人们目前更关心浅层语义分析,即分析句子中谓词(可以是动词或名词等)的语义角色成分,包括施事者、受事者、时间、地点等。作为浅层语义分析的一种实现方式,语义角色标注(Semantic Role Labeling,简称SRL)已被广泛应用于自然语言处理相关任务,如信息抽取、问答系统和机器翻译等。根据谓词词性的不同,通常可以将SRL分为动词性谓词SRL和名词性谓词SRL。目前主流的SRL研究集中于在给定句法树的条件下,使用各种统计机器学习技术,采用基于特征向量或基于树核函数的方法,进行语义角色的识别和分类。近年来的研究表明,SRL的性能严重依赖于句法分析的性能,同时名词性谓词SRL性能远低于动词性谓词SRL性能。以上两个问题在中文SRL研究中尤其突出,例如,在中文PropBank和中文NomBank的相关实验表明,基于正确句法树和正确谓词,动(名)词性谓词SRL性能F1值可以达到92(70),而基于自动句法分析F1值下降为67(57)。本文以句法和语义的联合分析为研究目标,研究新颖的句法分析模型和动/名词性谓词SRL,并重点探索两者之间的联合学习机制,推进SRL的实用化进程。主要研究内容包括:1.句法分析的研究。提出了层次句法分析模型,为实现句法分析和SRL的联合学习提供了强有力的基础。该模型将句法分析分解为三个子任务:词性标注、基本短语识别和复杂短语识别,自底向上进行,其基本思想是:在每层处理过程中,优先识别出容易识别的组块,这样就能提供更丰富的上下文信息进行复杂组块识别;未被合并的组块和新识别产生的组块共同构成下步处理的输入,重复此过程直至识别出根结点。2. SRL的研究。首先系统研究了中文动词性谓词SRL,重点探索了如何从句法树中抽取出各种平面特征和结构化特征。其次,深入研究了中文名词性谓词SRL,从两个角度探索了中文动词性谓词SRL对中文名词性谓词SRL的影响:训练实例的扩充和动词性谓词SRL特征的应用,显著地提高了名词性谓词SRL性能。最后,研究了中文名词性谓词的自动识别问题。实验表明,本文取得的动(名)词谓词SRL性能优于其他同类型系统。3.句法分析和SRL的联合学习机制研究。主要从两个层次探索了句法分析和SRL的联合学习:第一,提出了一种联合学习方案,将SRL嵌入到基于层次句法分析模型的句法分析过程中,实现两者的同步执行;第二,将由SRL得到的语义信息集成到层次句法分析模型中,更好地指导句法分析。实验表明,该联合学习方案不仅缓解了SRL对句法分析结果的严重依赖,而且能够提高两者的性能,特别是SRL的性能。本文的创新点主要表现在:提出了层次句法分析模型,该模型不仅取得较好的性能,而且具备良好的可扩充性,能够有效集成其他自然语言处理任务;提出了利用动词性谓词SRL生成的有效特征来辅助名词性谓词SRL;提出了一种有效的句法分析和SRL的联合学习机制,减少SRL对句法分析的依赖。实验表明,这些研究大大提高了SRL的性能,减轻了SRL对句法分析的依赖,对今后SRL的研究具有重要的参考价值。