论文部分内容阅读
词性是词汇的最基础的属性,它不仅为句法、语法分析提供了相应的知识基础,同时也为诸如词性标注等自然语言任务提供了有利的判定信息。词性标注的主要任务是对连续的词汇串中的词汇的词性进行标注,由于其在自然语言处理领域具有非常重要的地位,所以具有比较广泛的研究背景。词性标注的标注结果对于自然语言任务的众多语言任务的精确度起到了决定性作用,目前主要利用统计学模型和建立语言规则库的方法对词性标注的结果进行改进。其中利用隐马尔科夫模型(Hidden Markov Model,HMM)方法进行词性标注的方法是基于统计学模型的词性标注方法中比较常用的。由于汉语语言学的存在着一些独特的语法特性,在使用HMM在词性标注的标注过程中,经常出现了包括模型的数据稀疏、兼类词歧义以及未登录词等诸多问题。在不断地对HMM的研究过程中,众多学者相继提出了利用神经网络、规则库以及有限状态机等方法与传统HMM相结合而演化成的新的词性标注方法,这些方法都在一定程度上优化了词性标注系统的标注结果。本论文首先在研究了传统的统计模型与神经网络对汉语的词性标注过程后,分析了BP网络与传统隐马尔科夫模型在词性标注领域的特点,提出了一种新的模型:负反馈-隐马尔科夫模型(Back Propagation-Hidden Markov Model, BP-HMM)。BP-HMM模型可以充分地利用上下文信息,辅助词性标注系统进行词性标注任务。其次,由于目前传统平滑算法不能满足新模型的数据平滑需要,因此针对模型的特点和特性选取删除插值法进行优化对模型的状态转移矩阵进行平滑处理,并调整模型的观察概率矩阵。同时,将经过BP网络建立的语法规则库加入未登录词处理办法中,利用规则库有效的处理未登录词的标注问题。本文从北大的1998年《人民日报》标注语料库中抽取训练语料,在复旦大学开源自然语言处理系统fudannlp的基础上,利用JAVA在Eclipse平台上实现对负反馈-隐马尔科夫模型的训练学习,经过语料库预处理、平滑处理以及未登录词处理等操作,最后对Viterbi算法进行改进优化,对待标注的语料进行标注,并测试结果。实验表明,通过使用负反馈隐马尔科夫模型,在加入平滑算法以及生词处理算法之后,进行词性标注可以获得更加理想的词性标注效果。