N-gram技术在中文词法分析中的应用研究

被引量 : 0次 | 上传用户:oep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网的迅猛发展,网络在线的文档成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,人们从被动的接受门户网站发布信息,转变为主动的获取、发布、共享、传播信息。近年来,对Web页面的机器处理成为一个研究热点,自然语言文本是Web页面的主要内容,对自然语言文本进行机器处理技术的基础是词法分析,也是中文信息处理的“瓶颈”之一,其性能将直接影响句法分析及其后续的应用系统的性能。本文研究的汉语词法分析主要是中文分词这个方面的内容。词法分析作为基础处理步骤,先期的错误会沿处理链条扩散,并最终影响信息检索、问答系统、机器翻译等方面向最终用户的应用系统的质量。影响词法分析性能提高的主要因素包括歧义问题、数据稀疏问题以及独立同分布条件。介于上述背景,本文利用统计方法致力于改善词法分析的性能。从模型角度来看,本文在有监督法上主要探讨了N-gram模型以及该模型在中文分词和新词识别上的应用,并利用以上研究成果对N-gram技术在中文信息处理中的应用进行了深入研究。本文主要内容包括以下几个方面:(1)首先,对目前中文信息处理的现状以及N-gram模型在中文信息处理中的应用现状进行了阐述, N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。中文信息处理有基于汉语理解和基于统计两种方法,本文主要以基于统计的方法为主要研究对象。(2)第二,中文信息处理的基础技术为词法分析,这里对词法分析的研究现状进行了简单阐述,指出词法分析目前的困难,列举多种统计语言模型,本文主要就N-gram模型及其计算公式进行了细致全面的分析,并介绍了解决零概论问题的平滑算法等。(3)第三,研究了面向web文本的中文分词问题。本文简述了中文分词的国内外研究现状,指出中文分词的主要技术难点。本文在词法分析以及中文分词上分别进行了说明,介绍了N-gram中文分词模型。根据web文本环境的特点,研究了中文的新词识别问题。提出了基于N-gram的新词识别过程,并进行了评测,结果表明N-gram技术在中文新词识别上是可行的。另外,在语言特征方面,阐述了基于N-gram语言特征模版的文本特征表示方式,证实了采用高阶语言特征模板更为有效。
其他文献
排舞是一种舞蹈,同时也是一种运动文化形式。排舞具有舞蹈功能、运动功能以及艺术文化功能等。将排舞引进高校体育课程,主要是想为高校的体育文化注入新的活力,同时,也是新时期构
社区资源作为一种重要的社会支持,对民族互嵌式社区建设具有重要的促进作用。依据天津市“两县三区”的实地调查资料,从民族交往、居住格局、民族通婚三个方面具体考察少数民族
在通信市场竞争空前激烈的情况下,通信项目建设的任务越来越重。因此如何合理地安排项目进度,优化项目活动,确保项目预期完工,已成为项目管理者最重要目标之一,时间管理发挥
讨论语言与认知及它们的相互关系,即认知在语言习得与发展过程中所起的作用,语言因素是否影响认知能力的发展,认知与语言是相互独立还是关联。皮亚杰认为语言不是特殊能力,随
有机磷农药因其药效高、使用方便等优点而用量大,又因为其亲水性较强,易对水生生物产生污染和毒害。同时有机磷杀虫剂对不同鱼类的毒性有较大差异。这对该类农药的安全性评价
针对业务过程模型语义表达能力不足、难以实现精确描述和计算机识别等问题,提出一种基于本体活动的业务模型及将其映射为平台无关模型的方法。定义了组成业务模型的基元——本
目的:分析平乐正骨治疗腰椎间盘突出症的临床用药规律。方法:借助平乐正骨传统药物数据库平台,系统分析依据平乐正骨治疗腰椎间盘突出症的经验方、协定方所开具的325张门诊处
为研究自发病美洲鳗鲡分离的嗜水气单胞菌对该鱼的致病性,试验将60尾美洲鳗鲡平均分为对照组、浸泡组和注射组3组,3组鳗鲡分别注射PBS、以1.0×107cfu/mL的嗜水气单胞菌浸泡
二十世纪九十年代以来,随着我国经济的快速发展,环境污染、资源枯竭以及生态失衡等问题日趋严重。事实证明,要改变日益恶化的环境形势,实现节能减排的目标,单纯依靠行政约束
在近十几年的欧洲研究中,由“规范性力量欧洲”这一概念引发的相关问题在理论、经验研究层面得到了大量的讨论。借助于这一概念,学者们对欧盟的国际行为体特征、欧盟外交政策