论文部分内容阅读
成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括统计机器翻译(Statistical Machine Translation)、语义角色标注(Semantic Role Labeling)、问答系统(Question Answering)、信息抽取(Information Extraction)在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。但主流的成分句法分析器虽然能获得较好的性能,它们的速度却是非常慢的,这些速度较慢的句法分析模型不能满足实际应用的需求。为此,本文研究并构建了一个高效的中文成分句法分析模型,该模型基于移进-规约算法,其主要的优势在于其能够快速的进行句法分析,同时保证较好的性能,此外,本文还在基准系统的基础上对模型进行了几点改进。本文的主要内容如下:首先,研究并构建了中文成分句法分析基准系统。系统基于移进-规约算法,它是一个自底向上的句法分析算法,将成分句法分析过程转化成一个最优动作序列的搜索过程。该算法是一个线性的算法,所以能够高效率的完成句法分析任务。在训练过程中选择感知机模型,对算法进行建模,在解码模块使用柱搜索技术,既保证了算法的线性时间复杂度,又提高了算法的准确性。本文之后的研究以及改进的方法都将在这个基准系统上展开。其次,研究了提高中文成分句法分析性能的方法。通过对基准系统实验结果的分析提出了两种方法来改进分析模型:第一种是通过使用更丰富的句法分析特征来改进句法分析模型;另一种是使用基于半指导的方法,扩大训练集规模,提高句法分析动作判断的准确率,改进基准系统的性能。本文的贡献度主要表现在:研究并构建了一个高效的成分句法分析系统,在实验中可以达到每秒80句以上的分析速度。提出了两种改进句法分析模型的方法,并通过验证了这两种方法对句法分析性能的改进作用。最终的实验表明,本文提出的方法能够有效的改进成分句法分析模型的性能。在使用宾州大学中文树库标准测试集的条件下,算法获得的最高F1值为84.55%。