中文自动分词中的歧义消解算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:laniya82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络技术的飞速发展使信息的发布和共享超越了时空限制,中文信息处理技术逐渐成为热点研究课题。中文自动分词是中文信息处理的基础,词典算法的设计直接关系着分词系统的切分速度,歧义字段又是影响分词系统切分精度的重要因素。   本课题针对中文分词系统的两个重要指标:切分速度和切分精度两个方面进行了深入的研究。在切分速度方面,给出了一种优化的TRIE索引树词典机制,设计并实现了中文分词词典;在切分精度方面,给出了两种消除歧义字段的算法,为解决中文自动分词问题提供了一种新的途径。   论文首先对中文分词相关技术作了简单介绍,分析了各种自动分词方法的优缺点,介绍了交集型歧义和组合型歧义的定义及识别方法。然后对语料库以及分词中的词典机制进行了分析和研究,在语料库的建立环节采用关系数据库来管理语料库。在词典生成环节采用基于优化的TRIE索引树的词典机制,设计并实现了中文分词词典,有效地减少了词典空间,同时在查询速度上也有了较大幅度的提升。   论文主体部分对分词中的歧义消除算法作了研究。在分析了常见消歧算法的优缺点后,给出了两种消除歧义的核心算法。一种是基于条件随机场模型消除交集型歧义的算法,该算法将交集型歧义切分由二值分类问题转化为序列标注问题,不仅能够处理任意链长的歧义字串,而且能够利用上下文信息,在不同的上下文环境中对真歧义作出正确的切分。另一种是基于C-支持向量机和规则相结合来消除组合型歧义的算法。该算法的主要思想是利用C-支持向量机分类模型结合上下文规则库中的规则来对组合型歧义字段进行歧义消解,拓广了SVM的应用范围。   论文最后以大量的不同类型的语料作为测试集,做了封闭式和开放式的实验。实验结果表明,两种消歧算法消除歧义字段的正确率比较理想,验证了算法的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。
其他文献
下一代移动互联网旨在为用户提供“随时随地的服务”,在移动互联网核心网中,将P2P技术引入到移动通信网络中,形成扁平化分布式网络,能够有效提高核心网的自组织能力、容灾能
网络管理是关系到计算机网络的可靠性、安全性的重要技术之一。面对网络日益复杂的变化,传统的集中式网络管理模式已越来越显得滞后,在系统的可扩展性、可靠性等方面暴露出诸
D-S证据理论作为处理不确定信息的一种重要方法,对不确定信息的描述采用区间估计方法,在区分不知道和不确定性方面显示了较大的灵活性,在信息建模方面具有很大的优势。D-S证
随着电子技术、计算机技术、无线通信技术的高速发展,基于无线传感器网络的输电线路监测技术应运而生。在不久的将来,这项技术将逐渐地取代传统周期性巡检的线路检测方式,成为具有广阔应用前景的前沿热点研究领域。针对输电线路监测对无线传感器网络的实时性、可靠性、自适应性以及负载平衡等方面要求高的特点,并考虑到近汇聚节点处易出现“网络瓶颈”的现象,本文提出了用AGCRO算法对无线传感器网络进行跨层路由优化的思想
学位
随着物联网时代的到来,基于传感器的活动识别研究成为热点,其中利用可穿戴式传感器的活动识别在移动计算领域的研究较多,而基于非穿戴式传感器的活动识别研究更适合于智能环
普适计算作为新的计算模式,实现了信息空间和物理空间的融合。在这个融合的空间中,人们可以随时随地、透明地获得数字化的服务。上下文感知计算是普适计算研究的关键技术之一
随着互联网的广泛普及,电子商务对传统的商贸活动产生了革命性的变化,产生以商品为中心到以客户为中心的模式的转变。为了实现以客户为中心,为客户提供所需商品的目的,企业实
随着互联网在全球范围内的迅速发展,互联网已经成为人们获取信息的重要途径。然而互联网信息量的爆炸式增长,如何有效的在互联网上获取有用的信息已经变得极其困难。搜索引擎
车牌识别技术是智能交通系统的重要组成部分,是图像处理、模式识别与计算机视觉等技术在智能交通管理中的重要应用。在实际中,由于诸多干扰因素和复杂环境的影响,使得此技术