论文部分内容阅读
随着互联网的广泛应用,语料库知识的不断扩大,人们希望能从这些语料中进一步挖掘出更多有用的信息,其方法通常是建立一个面向各自应用领域的语言模型。与传统的基于规则的确定性语言模型不同,统计语言模型(SLM)建立在概率统计和信息论的基础上,通过对大量语料进行统计以揭示出语言内部特有的规律<[2]>。分析统计语言模型的性能以及如何将它应用于各种应用系统是当今自然语占处理领域的热点之一。
最早应用于语音识别系统的n-gram统计语言模型,已经广泛地出现在多种自然语言处理系统中。然而,这些系统处理中文信息时,都会面临一个常见的分词问题。传统的做法是在现有词典的基础上,定义一个确定性语言模型(DLM),依据各种语法规则实现机械分词。这种方法往往受到词典的规模、应用领域的限制以及切分规则过多等问题,而随着人们对开放式系统的要求越来越高,基于规则系统的局限性问题显得十分突出。
基于这种思路,本文旨在将分词问题纳入到统计语言模型的研究领域,分析语言模型的性能和分词效果之间的关系,寻找提高分词效果、优化语言模型的各种策略以及扩展语言模型规模的途径。本文主要讨论了n-gram统计语言模型的相关知识及构建方法;在基于互信息的边界探测算法(Boundary Detection)<[1]>的基础上,提出了基于n-gram模型的n-boundar),分词算法,并分析了两个算法的特点;然后利用EM的思想,通过这种算法训练更多的生语料以达到扩展模型规模和提高模型性能的目的;最后通过几组实验数据比较,验证了这种分词算法以及使用这种算法训练语料的可行性。得到了语言模型复杂度(Perplexitv)可以从训练前的126.368降低到训练后的56.716,信息熵(Entropy)为5.826比特/字符的时候,分词效果综合评价参数F-Meastlre达到0.780的结果。