基于统计机器学习算法的汉语分词系统的研究

来源 :北京邮电大学 | 被引量 : 15次 | 上传用户:qian7122011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就是不同任务使用不同的处理策略或两个任务按时间顺序先后被处理。我们认为这两个问题从本质上说并不是独立的,完全可以在一个系统里同时将其解决。在本文中,我们提出了一个统一的方法来实现汉语自动分词和中文命名实体识别。 统计语言模型已经成功地应用到很多的领域,例如语音识别领域、信息抽取领域和口语理解领域。特别是三元语言模型在这些领域已被证实是相当有效的。在本文中,我们提出了一种统一的统计语言模型方法用来汉语自动分词和中文命名实体识别,这种方法对基于词的三元语言模型进行了很好的扩展。 本文旨在使用一个统一的方法解决两个基本的自然语言处理问题:其一是汉语自动分词,其二是中文命名实体识别。我们提出了一种基于类的语言模型的方法,这种方法对于类的定义主要集中在六类:中国人名和外国人名,中国地名和外国地名,中国组织机构名和外国组织机构名。基于类的语言模型包括两个独立的子模型:(1)一系列的命名实体语言模型,每个命名实体语言模型估计在给定类的情况下字符串的生成概率;(2)语境模型,语境模型估计类序列的生成概率。因此,我们所提出的基于类的语言模型提供了一个统计的框架来统一处理汉语自动分词和中文命名实体识别。初步的结果表明这种方法在与其它的已经发表的基于机器学习的方法比较时是具有竞争力的。通过对北京大学2000年全年的标注语料的训练,汉语分词的准确率、召回率分别为96.0%和96.4%;人名、地名、机构名的准确率分别为88.79%,83.20%,85.67%;人名、地名、机构名的召回率分别为90.13%,89.21%,80.13%。我们使用本系统参加了第二届SIGHAN的竞测,取得了很好的名次。
其他文献
通信技术近年来得到了迅速发展,视频通信的应用前景十分广阔,相关技术的发展日新月异。视频信息数据量庞大,通常都需要经过压缩后传输。然而,由于通信信道不可避免的存在噪声
采用MPC8250和Linux2.6内核作为基本软硬件平台的嵌入式系统,在实践中,其实时性和数据处理能力等方面均可以满足作为卫星通信终端室内单元的要求。MPC8250采取了基于硬件的中
国内300多家社会体育专业院校的课程内容没有专门、系统针对老年运动行为需求的课程设置,且传统的体育学培养的学生在专业技能和专业理论方面还不能完全适应老龄化的实际需求,本文仅对构建的老年体育学方向课程基础内容设计和培养目标进行了研究。  1 老年体育专业方向的知识结构分析  1.1 老年体育专业人才的知识结构分析  本研究在参阅大量有关人才学的论著后,将老年体育专业人才的知识构成分为公共基础知识
期刊
逆合成孔径雷达成像(ISAR)是目前世界上雷达成像处理中的研究热点,也是信号处理中的一个崭新领域。本文主要对逆合成孔雷达成像中的两个问题进行研究和探索:时频相位校正算法
人们在工作和生活中时常会遇到对自身或目标物体的位置信息的需求,而现有的定位服务和技术并不能满足这一需要,这使得蜂窝网定位具有广阔的市场前景。蜂窝网定位具有低成本、
社会的进步引起了人类生活模式和思维模式的改变,安防产业的市场前景越来越被看好,监控和数字服务是安防产业重要的技术支撑手段。楼宇对讲系统从九十年代初开始进入中国,到现在
在传统图像处理过程中,图像采样均遵循Nyquist采样定理。该定理要求信号的采样速率必须大于或等于信号最高频率的两倍。这种采样方式将产生大量冗余信息,这些冗余信息将对图像
伴随着通信系统中信源、信宿两端信息处理能力的迅猛发展以及各种信道带宽容量的不断拓展,多媒体通信技术正逐步成为下一代通信系统的核心组成部分。作为多媒体通信的重要方
随着无线传感器技术的发展,以人为中心的无线体域网吸引了学术界和商业界的大量关注。无线体域网是由数个放置在人体不同身体部位的传感器节点或便携式移动设备组成的,可连续
科学技术的快速发展,使得科研工作者对作为基本工具的电子测量设备的要求越来越高,这也就直接影响着科学仪器的发展方向。目前智能仪器朝着两个方面发展。一方面,电子测量也从单