基于n-gram模型的中文分词技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:pbsiszx1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛应用,语料库知识的不断扩大,人们希望能从这些语料中进一步挖掘出更多有用的信息,其方法通常是建立一个面向各自应用领域的语言模型。与传统的基于规则的确定性语言模型不同,统计语言模型(SLM)建立在概率统计和信息论的基础上,通过对大量语料进行统计以揭示出语言内部特有的规律<[2]>。分析统计语言模型的性能以及如何将它应用于各种应用系统是当今自然语占处理领域的热点之一。 最早应用于语音识别系统的n-gram统计语言模型,已经广泛地出现在多种自然语言处理系统中。然而,这些系统处理中文信息时,都会面临一个常见的分词问题。传统的做法是在现有词典的基础上,定义一个确定性语言模型(DLM),依据各种语法规则实现机械分词。这种方法往往受到词典的规模、应用领域的限制以及切分规则过多等问题,而随着人们对开放式系统的要求越来越高,基于规则系统的局限性问题显得十分突出。 基于这种思路,本文旨在将分词问题纳入到统计语言模型的研究领域,分析语言模型的性能和分词效果之间的关系,寻找提高分词效果、优化语言模型的各种策略以及扩展语言模型规模的途径。本文主要讨论了n-gram统计语言模型的相关知识及构建方法;在基于互信息的边界探测算法(Boundary Detection)<[1]>的基础上,提出了基于n-gram模型的n-boundar),分词算法,并分析了两个算法的特点;然后利用EM的思想,通过这种算法训练更多的生语料以达到扩展模型规模和提高模型性能的目的;最后通过几组实验数据比较,验证了这种分词算法以及使用这种算法训练语料的可行性。得到了语言模型复杂度(Perplexitv)可以从训练前的126.368降低到训练后的56.716,信息熵(Entropy)为5.826比特/字符的时候,分词效果综合评价参数F-Meastlre达到0.780的结果。
其他文献
传统的IP网络是针对数据业务设计的,只能提供数据传输的服务,并不具备调节网络资源使用的能力。随着互联网应用的普及化,因特网已从单一的数据传输网向包含多种业务类型的综合传
随着因特网和移动互联网的普及和蓬勃发展,通过网络实现随时随地的信息传输成为当今的技术热点,也是各大企业新时期的价值增长点。同传统的通讯方式相比,即时通讯有着及时和价格
随着网络技术的迅速发展,越来越多具有计算能力的设备如网络计算机(Network Computer)、掌上电脑(PDA)、智能手机等逐渐融入以及影响人们的日常生活。计算模式的发展正逐步向
信息安全是信息社会急需解决的最重要问题之一,它已成为信息科学领域的一个重要新兴学科。数字签名技术是提供认证性、完整性和不可否认性的重要技术,因而是信息安全的核心技
在三维城市景观中实现空间信息的查询使得三维城市景观不仅能为用户提供视觉上的感受,让用户对城市建设具有感性认识,更使得决策者、设计师和用户对城市建设现状和规划设计蓝图
随着信息社会和计算机科学的发展,语音信息服务得到了广泛的应用。语音信息服务系统需要语音合成技术的支持,而且多语种的语音合成研究是近年来国内外语音合成研究的一个热点
自上世纪80年代的个人电脑普及革命和90年代的互联网普及应用,计算机网络使得信息化所包含的信息收集、传递与共享具备了实现的技术条件。信息技术在近十几年来的飞速发展和广
随着现代计算机技术的飞速发展和互联网技术的广泛应用,人类社会从PC时代过渡到了以个人数字助理、个人电脑和信息家电为代表的3C(计算机、通信、消费电子)一体的后PC时代。在
驻波比检测仪在国内外各大厂家都有不同型号和具体功能齐全的产品生产,然而高性能的该类测量仪研发和生产都是屈指可数,尤其用在专门的核潜艇上的技术几乎不对外交流,我国的核潜
高效、可靠、安全的嵌入式Web服务器使视频监控设备通用性强、开放性好,控制功能完善、数据处理方便、人机界面友好,调试和维护简单化。嵌入式Web服务器应用于视频监控领域,