基于根节点的汉语依存关系解析的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:eric900300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语依存关系解析是句法分析的重要方法,而句法分析是自然语言处理的关键技术。汉语依存关系解析是基于汉语依存文法来确定句子中词与词之间的依存关系。词是句子结构中的最小元素,词与词之间的依存关系解析可以表示词间的深层联系,所以本文在词的基础上进行依存关系解析。Nivre算法已经成功地应用于英文和西班牙语的依存关系解析,并取得了较好的研究成果,而英文和汉语在句法特点上具有一定的相似性,所以本文采用基于SVM(Support vector machine,SVM)的确定性Nivre算法进行汉语依存关系解析。确定性解析算法通过解析句子中各个词与其前后词的依存关系解析整个句子。而有些相互依存的词距离较远,使用传统的确定性解析方法难以解析。杨洋提出的“考虑远距离依存关系的确定性Nivre算法”,较好地解决了这个问题。但是这种方法没有考虑整句信息,影响了解析器的解析效果。为解决上述问题,本文采用优先度学习算法构建了根节点解析器,将句子信息加入到根节点识别的过程,通过提高根节点的解析精度来间接地提高依存关系的解析精度,而且根节点将一个句子划分为两个独立的分句,这样既可以降低解析难度,又可以避免出现跨越根节点的错误的依存关系。通过解析两个分句,并组合它们各自的解析结果即可得到原句的依存关系解析结果。实验采用哈工大信息检索研究室提供的依存关系语料库,引入根节点解析器后,根正确率提高了9.6%,达到81.20%。同时根节点的确定也为随后的依存关系解析提供了整句的依存结构信息,使依存关系正确率提高至79.44%。封闭测试几乎完全正确地解析了训练语料,解析精度达到98.62%。对上述实验结果进行错误分析,发现哈工大语料库粗糙的词性导致了部分解析错误。为提供更准确的学习特征,本文基于隐马尔可夫模型细化了语料库的词性标注体系,根正确率又得到进一步提高,达到83.90%,依存关系正确率也得到一定的提高,达到79.64%。
其他文献
近年来,随着Internet和图像处理技术的快速发展,网络视频监控技术得到了广泛的应用。在网络视频监控系统中,监控的范围不再局限于某一个地点,而是任何有网络的地方。和以前的
在信息社会里,手机已成为人们日常生产生活中必不可少的通讯工具。随着技术的发展,手机的性能比过去有了巨大的提高,几乎可以与九十年代中期的PC机相媲美。可以说当今的手机已经
随着互联网的快速发展,信息超载问题变得愈发突出,用户无法快速从大量的网络信息资源中获取对自己有用的信息,导致信息的使用效率降低。推荐系统作为一种信息过滤的重要手段,
网络控制系统是通过网络实现控制机构之间相互通信的全分布式实时反馈闭环控制系统,呈现出传感器、控制器和执行器空间分离的物理特征。二十一世纪初,在全球富有盛名的19位学
随着INTERNET的飞速发展,网上的信息越来越丰富,激增的数据背后隐藏着许多重要的信息。用户使用现有的搜索引擎浏览页面时,虽然能部分解决“资源发现”的问题,但精度不高,不
利用计算机图形学理论,在三维场景中对气体进行渲染,对于虚拟现实和环境保护等方面有着重要的意义。随着计算机硬件的发展,和实时流体模拟理论的进步,建立复杂环境中的气体渲染已
工作流技术是当前计算机应用领域的一个研究热点,利用工作流技术对企业进行业务过程的建模和分析不仅可以规范化企业的业务流程,发现业务流程中不合理和低效的环节,进而对企
混沌现象是20世纪人类最重要的科学发现之一。在过去的20多年时间里,人们对混沌的研究主要是从一些实验及数值模拟来观察和量化混沌。随着对混沌现象认识的不断深入,如何应用混
近年来,随着数据库技术以及数字化技术的不断进步,针对高维时间序列的数据挖掘研究引起了越来越多学者广泛的兴趣。然而,由于数据维度的增多,大大增加了数据挖掘算法的复杂性,使得
从上个世纪九十年代初期开始,基于内容的多媒体检索就开始成为了在多媒体信息检索领域中的一个研究热点。并且基于内容的多媒体检索的研究也一直是计算机视觉领域中的一个非