论文部分内容阅读
作为自然语言处理(Natural Language Processing, NLP)领域的一个核心问题,高性能句法分析在NLP应用领域中发挥了重要的作用。由于句法规则很难穷尽,而且对汉语真实语料的处理能力不够,基于真实语料数据库的句法分析成为目前句法分析的主流。然而,由于汉语句子成分太复杂,直接对真实语料进行句法分析,性能很难提高,因此,本文首先基于规则和谓词识别技术,将汉语句子分割成多个汉语事件描述小句(Chinese Event Descriptive Clause, EDC);然后在构建数据库的基础上,采用基于面向数据分析技术(Data-Oriented Parsing, DOP)对汉语EDC进行句法分析;最后通过组合处理实现完整句子的句法分析。实验证明以上技术路线达到了较好的效果。本文完成的主要工作如下:1、学习面向数据的句法分析技术;2、构建数据库。DOP句法分析是基于真实语料数据库的,为此我们需要构建相关数据库,本实验需要的数据库有汉语问句类型库、问句句型库、问句疑问词库、句法片段库,句法截断库以及句法片段组合库等;3、提出面向事件描述小句的汉语自动句法分析的方法和步骤。本文提出在句法分析之前对真实语料进行小句划分的预处理方法,预处理阶段采用一种基于谓词识别和规则方法,将汉语句子分割成多个事件描述小句;然后基于DOP对汉语事件描述小句进行句法分析;最后通过组合处理实现完整句子的句法分析。该方法的好处是可以将句法分析的任务分步处理,将词数较多的复杂句简单化,从而提高句法分析的速度和精度。4、进行了详细的实验,基于CIPS-ParsEval2009提供的task5语料库上对陈述句句法结构分析树进行了训练和测试,取得的F-1测度分别为:Without-head match F1:82.78%; Complete-head match Fl:75%.在HIT提供的关于LOC类进行实验。Close测试的正确率达到94%。