基于统计学习的中文分词改进及其在面向应用分词中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:jiajia_jiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在汉语中,句子由连续的汉字组成,中文分词完成句子从有字的序列转化为词的序列的任务。传统的机械分词方法基于人工维护的辞典,需要大量的维护成本。本文提出一种基于统计学习的分词方法,以期在最小人工干预的条件下达到尽可能高的分词性能。本文首先对中文分词技术做了概述。指出了当前中文分词领域中存在的一些难点问题,并对常见的分词理论和技术进行了回顾,为论文的研究奠定了理论基础。第三章详细描述了本文提出的基于统计学习的分词方法。该方法在传统的统计方法基础上做了亮点改进:1、引入了基于对数似然比的汉字间关联度描述,并与逐点互信息和信息熵相结合,提出了一种混合汉字间关联度度量方法;2、将常用的二元语法扩展为三元语法,提出了一种性能优化的三元语法获取和使用方法。根据不同自然语言处理应用对分词的需求并不相同这一基本事实,本文第四章中提出了一种面向应用的分词架构,将基于统计学习的分词方法用于未登录词识别和分词粒度调整。面向应用的分词方法有效弥补了未登录词造成的损失,还可以根据不同应用的需求,切分出不同粒度的分词结果。最后对系统进行了实验及结果分析。最后对本文的工作做了分析总结,分析了系统的优势和不足,提出了下一步工作的方向。
其他文献
无线传感器网络(Wireless Sensor Network, WSN)是无线通信网络领域一大研究热点,它的日渐成熟极有可能显著改变人们的日常生活。WSN技术是跨多门学科的新技术,这些技术包括
在互联网信息爆炸的时代,新闻资讯越来越便捷,更新的速度也越来越快。当重大事件发生时,大量的相关新闻报道以及追踪报道便会涌现。对用户而言,如何能找到感兴趣的事件并能迅速了
随着计算机技术和互联网的迅猛发展,信息技术的应用逐渐由传统的集中式形态发展到分布式形态,各种分布式计算的形态也在逐渐演变,由传统的分布式系统发展到网格计算,再到最近
本文针对现阶段三维模型简化算法在工程性应用上的弊端,以及三维模型简化软件应用的不普遍性,开发出了基于billboard clouds简化算法的交互式三维模型简化软件。该软件不仅包括
随着工业规模的持续扩大和科学技术的迅猛发展,现代电力系统中增加了大量非线性、冲击性、波动性负载,导致电力系统遭受日益严重的电能质量危害。如何对电能质量进行有效分析与研究成为当前一项紧迫而重要的工作,受到国内外电工领域的广泛关注。为提高和改善电能质量,主要面临以下两方面难题:一方面需要解决海量电能质量数据的采集、压缩、存储与传输问题,另一方面需解决电能质量扰动的检测定位与识别问题。本文首先介绍了电力
基于图像序列的三维重建技术是计算机视觉的重要组成部分,这门技术的核心是以图片序列和相机参数做为输入,通过计算之后生成三维点云并最终重建为三角网格模型。基于图像序列的
近年来,随着多媒体技术和网络技术的迅速发展和广泛运用,产生的图像、声音、视频等多媒体数据越来越多。为有效的组织、表达、存储、管理、检索这些海量的多媒体数据,基于内容的
近年来,地理信息技术在我国电力行业得到了广泛的应用,到目前为止越来越多的电力系统用户已经建立并投运了GIS(地理信息系统),GIS在降低信息维护成本、提高电网运营管理能力
时序数据普遍存在于许多重要应用领域,其中大多数问题的解决可归属为时序数据挖掘问题,时序分类是时序数据挖掘的重要研究内容之一。衡量分类性能好坏的一个重要指标是分类准
近些年来,人体行为识别的研究已经成为计算机视觉中的研究热点。人体行为识别属于高级视觉分析,它是人体运动分析的重要组成部分。人体行为识别具有广泛的应用前景和潜在的经