论文部分内容阅读
随着人工智能的蓬勃发展,自然语言处理作为人类与计算机交流的关键技术其重要性日益凸显。自然语言处理的研究包括词法分析、句法分析、语义分析等内容,按照处理层次的不同,可以划分为浅层分析和深层分析两类。浅层分析技术主要针对词汇级别进行处理,深层分析技术则是针对整篇文本进行语法、语义以及语用级别进行处理。句法分析在给定语法体系的前提下,自动推断句子的语法结构并分析出句子里语法单元相互之间的关系,属于深层分析技术。在句法分析底层的词法分析技术基本上已经成熟,深层的语义分析技术则是建立在句法分析的基础之上,句法分析起着承上启下的核心作用,在自然语言处理中处于十分关键的位置。传统的句法分析模型虽然已有较高的性能,但是往往使用了大量人工选择的特征及其组合,这些人工特征需要大量的人力成本以及严重依赖于模型实现者的经验。基于深度学习模型的优点是能够自动提取特征进行建模,充分利用神经网络自身的特征学习能力,避免了大量的人工参与。基于深度学习的句法分析模型相较于传统的句法分析模型在自然语言处理方面有高得多的性能表现。将深度学习方法引入句法分析目前已成为新的研究热点。论文在分析汉语句法特征的基础上,引入深度学习模型对汉语进行句法分析,设计了更为有效的神经网络结构,使用了更高准确率的特征提取方法。主要工作如下:(一)提出了一个基于图结构的句法分析模型。该模型具有更为泛化的网络结构,使用双向长短期记忆神经网络模型生成隐马尔科夫模型里观测概率的向量表示,然后添加约束性条件来保证分析结果更符合语言的自身逻辑,最后使用隐马尔科夫模型得到句法分析树。论文定义的神经网络模型能够有效地生成观测概率向量,合理的过滤程序能够避免出现不符语言逻辑的句法分析结果,隐马尔科夫模型能够有效地进行分类工作。在中文汉宾树库上分别对短句和长句进行实验,实验结果表明提出的句法分析模型能够显著地提升句法分析的性能。(二)提出了一个基于深度学习的渐步性句法分析方法。由于数据的稀疏性问题以及计算量在时空方面的限制,通常的句法分析方法使用一元文法模型或者二元文法模型来代替全局的上下文信息。本文提出了一个新的概率计算方法——树形概率计算方法,其相较于传统的链式概率计算方法能够更好地平衡各个特征项(尤其是稀疏的特征项)在整体概率值计算过程中的作用,根据此概率计算方法来进行特征提取,较于一元文法模型或者二元文法模型其获取全局上下文信息的能力更强。论文将其应用到句法标签的分类中,针对句法结构和句法标签的层次性关系,先分析句法结构,再根据对应结构进行句法标签的分类,引入了一个层次化的模型。传统的基于神经网络的句法分析模型大多采用通用的对句法结构和句法标签统一建模的方法,然而句法分析本身是有内在层次的,树形概率计算方法可以使用句法结构的父子节点层次化信息给句法标签的分类提供大量的帮助。实验表明,对于句法标签的分类工作,论文提出的渐步性方法在句法标签的分类准确率方面取得了良好的性能。该方法也可以应用到其它自然语言处理应用中来提取全局特征和进行概率计算。本文在改善汉语句法分析的性能方面做了探索,设计了一个高效可用的深度学习句法分析模型,将一种新的树形概率计算方法应用到句法标签的分类研究上,大大提高了汉语依存句法分析在句法标签分类上的准确率。本文工作取得了一些初步的成果,进一步优化深度学习模型的结构,改善语料库数据集的质量是下一步的工作方向。