中文成分句法分析关键技术研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:chen769520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括统计机器翻译(Statistical Machine Translation)、语义角色标注(Semantic Role Labeling)、问答系统(Question Answering)、信息抽取(Information Extraction)在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。但主流的成分句法分析器虽然能获得较好的性能,它们的速度却是非常慢的,这些速度较慢的句法分析模型不能满足实际应用的需求。为此,本文研究并构建了一个高效的中文成分句法分析模型,该模型基于移进-规约算法,其主要的优势在于其能够快速的进行句法分析,同时保证较好的性能,此外,本文还在基准系统的基础上对模型进行了几点改进。本文的主要内容如下:首先,研究并构建了中文成分句法分析基准系统。系统基于移进-规约算法,它是一个自底向上的句法分析算法,将成分句法分析过程转化成一个最优动作序列的搜索过程。该算法是一个线性的算法,所以能够高效率的完成句法分析任务。在训练过程中选择感知机模型,对算法进行建模,在解码模块使用柱搜索技术,既保证了算法的线性时间复杂度,又提高了算法的准确性。本文之后的研究以及改进的方法都将在这个基准系统上展开。其次,研究了提高中文成分句法分析性能的方法。通过对基准系统实验结果的分析提出了两种方法来改进分析模型:第一种是通过使用更丰富的句法分析特征来改进句法分析模型;另一种是使用基于半指导的方法,扩大训练集规模,提高句法分析动作判断的准确率,改进基准系统的性能。本文的贡献度主要表现在:研究并构建了一个高效的成分句法分析系统,在实验中可以达到每秒80句以上的分析速度。提出了两种改进句法分析模型的方法,并通过验证了这两种方法对句法分析性能的改进作用。最终的实验表明,本文提出的方法能够有效的改进成分句法分析模型的性能。在使用宾州大学中文树库标准测试集的条件下,算法获得的最高F1值为84.55%。
其他文献
采用应力波、超声波、纵向及弯曲共振这4种方法,对红松和色木木梁试件在不合缺陷,含不同大小、位置和数量局部缺陷时的动弹性模量进行了测定,并分别讨论了其对木梁动弹性模量的
目的分析羚羊角胶囊联合赖氨肌醇维B12口服溶液治疗抽动障碍儿童疗效。方法选取6例抽动障碍儿童,按门诊就诊先后次序随机分为治疗组和对照组,治疗组应用羚羊角胶囊联合赖氨肌
为了系统地分析非线性四轮转向车辆的动力学行为,并同时考虑实际车辆运行工况的复杂性,建立了具有非线性特征的四轮转向车辆动力学模型.选择质心侧偏角和横摆角速度作为控制