论文部分内容阅读
随着计算机技术和互联网的迅猛发展,网络在线的文档成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,人们从被动的接受门户网站发布信息,转变为主动的获取、发布、共享、传播信息。近年来,对Web页面的机器处理成为一个研究热点,自然语言文本是Web页面的主要内容,对自然语言文本进行机器处理技术的基础是词法分析,也是中文信息处理的“瓶颈”之一,其性能将直接影响句法分析及其后续的应用系统的性能。本文研究的汉语词法分析主要是中文分词这个方面的内容。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等方面向最终用户的应用系统的质量。影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。介于上述背景,本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督法上主要探讨了N-gram模型以及该模型在中文分词和新词识别上的应用,并利用以上研究成果对N-gram技术在中文信息处理中的应用进行了深入研究。本文主要内容包括以下几个方面:(1)首先,对目前中文信息处理的现状以及N-gram模型在中文信息处理中的应用现状进行了阐述, N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。中文信息处理有基于汉语理解和基于统计两种方法,本文主要以基于统计的方法为主要研究对象。(2)第二,中文信息处理的基础技术为词法分析,这里对词法分析的研究现状进行了简单阐述,指出词法分析目前的困难,列举多种统计语言模型,本文主要就N-gram模型及其计算公式进行了细致全面的分析,并介绍了解决零概论问题的平滑算法等。(3)第三,研究了面向web文本的中文分词问题。本文简述了中文分词的国内外研究现状,指出中文分词的主要技术难点。本文在词法分析以及中文分词上分别进行了说明,介绍了N-gram中文分词模型。根据web文本环境的特点,研究了中文的新词识别问题。提出了基于N-gram的新词识别过程,并进行了评测,结果表明N-gram技术在中文新词识别上是可行的。另外,在语言特征方面,阐述了基于N-gram语言特征模版的文本特征表示方式,证实了采用高阶语言特征模板更为有效。