中文成分句法分析关键技术研究

来源 :东北大学 | 被引量 : 2次 | 上传用户：chen769520

【摘要】

：

成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括统计机器翻译(Statistical Machine Translation)、语义角色标注(Semantic Role Lab

【作者】

：

刘卓

【出处】

：

东北大学

【发表日期】

：

2014年01期

【关键词】

：

自然语言处理成分句法分析移进-规约感知机模型柱搜索半指导

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

成分句法分析(又被称作短语结构句法分析)是自然语言处理的核心任务之一,被广泛应用于包括统计机器翻译(Statistical Machine Translation)、语义角色标注(Semantic Role Labeling)、问答系统(Question Answering)、信息抽取(Information Extraction)在内的多种自然语言处理任务。由于人工标注句法数据(在句法分析领域,这类数据的集合通常被称作树库)的出现,数据驱动的句法分析方法成为当前句法分析研究的主流方法。但主流的成分句法分析器虽然能获得较好的性能,它们的速度却是非常慢的,这些速度较慢的句法分析模型不能满足实际应用的需求。为此,本文研究并构建了一个高效的中文成分句法分析模型,该模型基于移进-规约算法,其主要的优势在于其能够快速的进行句法分析,同时保证较好的性能,此外,本文还在基准系统的基础上对模型进行了几点改进。本文的主要内容如下：首先,研究并构建了中文成分句法分析基准系统。系统基于移进-规约算法,它是一个自底向上的句法分析算法,将成分句法分析过程转化成一个最优动作序列的搜索过程。该算法是一个线性的算法,所以能够高效率的完成句法分析任务。在训练过程中选择感知机模型,对算法进行建模,在解码模块使用柱搜索技术,既保证了算法的线性时间复杂度,又提高了算法的准确性。本文之后的研究以及改进的方法都将在这个基准系统上展开。其次,研究了提高中文成分句法分析性能的方法。通过对基准系统实验结果的分析提出了两种方法来改进分析模型：第一种是通过使用更丰富的句法分析特征来改进句法分析模型；另一种是使用基于半指导的方法,扩大训练集规模,提高句法分析动作判断的准确率,改进基准系统的性能。本文的贡献度主要表现在：研究并构建了一个高效的成分句法分析系统,在实验中可以达到每秒80句以上的分析速度。提出了两种改进句法分析模型的方法,并通过验证了这两种方法对句法分析性能的改进作用。最终的实验表明,本文提出的方法能够有效的改进成分句法分析模型的性能。在使用宾州大学中文树库标准测试集的条件下,算法获得的最高F1值为84.55%。

其他文献

局部缺陷对木梁动弹性模量的影响

采用应力波、超声波、纵向及弯曲共振这4种方法，对红松和色木木梁试件在不合缺陷，含不同大小、位置和数量局部缺陷时的动弹性模量进行了测定，并分别讨论了其对木梁动弹性模量的

期刊

木梁局部缺陷动弹性模量振动法wood beam local defect dynamic modulus of elasticity vibration

羚羊角胶囊联合赖氨肌醇维B12口服溶液治疗抽动障碍儿童疗效分析

目的分析羚羊角胶囊联合赖氨肌醇维B12口服溶液治疗抽动障碍儿童疗效。方法选取6例抽动障碍儿童,按门诊就诊先后次序随机分为治疗组和对照组,治疗组应用羚羊角胶囊联合赖氨肌

会议

抽动障碍儿童羚羊角胶囊赖氨肌醇维B12口服溶液盐酸硫必利疗效分析

考虑非线性特征的4WS车辆滑模鲁棒稳定性控制

为了系统地分析非线性四轮转向车辆的动力学行为,并同时考虑实际车辆运行工况的复杂性,建立了具有非线性特征的四轮转向车辆动力学模型.选择质心侧偏角和横摆角速度作为控制

期刊

四轮转向滑模控制非线性

中文成分句法分析关键技术研究

其他学术论文