CRFs模型下的中文自动分词研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:define_misser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是中文信息处理的一项重要的基础性任务,是机器翻译、问答系统、自动文摘等技术的基础,也是实现中文搜索引擎所必须的关键技术之一。然而由于汉语自身的复杂性,分词问题一直是中文自然语言处理的难题。本文在已有研究的基础上,利用条件随机场(Conditional Random Fields,CRFs)模型进行汉语自动分词的研究。旨在提高汉语分词系统的性能,为后期词法分析和其它自然语言处理任务服务。本文的核心工作可以概括为以下几个方面:(1)简要介绍了相关模型理论,并进一步介绍了以最大熵理论为驱动发展起来的CRFs模型。CRFs模型是目前最为优秀的无向图条件概率模型,主要用于标记和分割序列数据。它克服了最大熵等模型的标记偏置问题;同时,能够考虑节点之间的联系,从而可以利用上下文特征获得全局最优的标注结果。(2)通过对基于字的CRFs的标注结果进行分析发现,CRFs模型中的标注错误大都拥有较低的边缘概率,分别使用正向最大匹配(FMM)方法和基于类的隐马尔可夫模型对这部分边缘概率较低的样本综合边缘概率较高的样本进行修正,以优化系统的识别效果。实验证明,在CRFs边缘概率基础上进行的分词其结果明显好于单纯的CRFs的标注结果。(3)对建立在CRFs模型框架上的,基于字标注的分词方法和一种新型的基于词标注的分词方法进行了综合比较。并在此基础上,根据汉语的特点,尝试使用角色特征信息,来改善基于词标注的CRFs方法对未登录词的识别。本文的主要贡献有:(1)提出了利用CRFs边缘概率来改善CRFs分词性能的方法,该方法可应用于自然语言处理中其它的序列标注任务;(2)有效地利用了已有的研究方法并进行了有机的整合和改进。实验证明,基于条件随机场的分词方法,是一种可行的分词手段。
其他文献
现代计算机技术极大地促进了计算科学的发展,同时对计算的要求也在不断提高。由于受到计算机硬件速度和技术水平的限制,单处理机远远满足不了众多领域中具有挑战性的大规模计
在现今中国高校中,非计算机专业学生均开设了计算机基础课程,计算机操作能力已成为学生必备的一项技能,虽然每年都有相应的国家和省级计算机等级考试,但在各学校中采用考试系
3G时代的到来为移动增值业务提供了广阔的发展空间,移动位置服务以其移动性、实用性、随时性和个性化的特点,成为最具发展潜力的移动增值业务之一。本论文工作是国内某通信技
本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点,是共享概念模型的形式化规范说明,已被广泛应用于知识工程、知识管理、系统建模、信息处理、数字图书馆、自
无线传感器网络由大量传感器节点组成,这些节点被部署在监测区域中,通过无线通信的方式自动形成网络系统。无线传感器网络集传感器技术、信息技术和网络通信技术等前沿学科为
基于GPRS技术的煤矿地面风井综合参数安全监控系统采用GPRS技术代替传统的有线通讯方式,可以有效的监控和管理煤矿的安全状况,实现了瓦斯、负压等环境安全数据完全共享,形成
传感器、无线通讯和微电子等技术的进步和相互结合,推动了无线传感器网络的快速发展。无线传感器网络拥有信息收集、处理和传输功能,已广泛的应用于环境智能、交通运输、军事
用户的基础属性信息(例如性别、年龄、收入状况、文化程度、宗教信仰等)在个性化服务中具有重要的意义,比如定向广告投递、智能推荐系统以及其他方面。然而,这些信息对于用户
近年来,因特网的飞速发展与广泛应用,使得Web上的信息量以惊人的速度增长。面对Web丰富的信息内容,巨大的数据量,加之由于万维网分布、动态、海量、异质、复杂、开放性的特点
随着网络数据流量不断增大,基于人工建模的入侵检测技术已经无法适应新的网络环境,为了从海量的数据中提取出有用信息,把数据挖掘技术引入到入侵检测中。由于入侵手段的不断