论文部分内容阅读
信息网络技术的飞速发展使信息的发布和共享超越了时空限制,中文信息处理技术逐渐成为热点研究课题。中文自动分词是中文信息处理的基础,词典算法的设计直接关系着分词系统的切分速度,歧义字段又是影响分词系统切分精度的重要因素。
本课题针对中文分词系统的两个重要指标:切分速度和切分精度两个方面进行了深入的研究。在切分速度方面,给出了一种优化的TRIE索引树词典机制,设计并实现了中文分词词典;在切分精度方面,给出了两种消除歧义字段的算法,为解决中文自动分词问题提供了一种新的途径。
论文首先对中文分词相关技术作了简单介绍,分析了各种自动分词方法的优缺点,介绍了交集型歧义和组合型歧义的定义及识别方法。然后对语料库以及分词中的词典机制进行了分析和研究,在语料库的建立环节采用关系数据库来管理语料库。在词典生成环节采用基于优化的TRIE索引树的词典机制,设计并实现了中文分词词典,有效地减少了词典空间,同时在查询速度上也有了较大幅度的提升。
论文主体部分对分词中的歧义消除算法作了研究。在分析了常见消歧算法的优缺点后,给出了两种消除歧义的核心算法。一种是基于条件随机场模型消除交集型歧义的算法,该算法将交集型歧义切分由二值分类问题转化为序列标注问题,不仅能够处理任意链长的歧义字串,而且能够利用上下文信息,在不同的上下文环境中对真歧义作出正确的切分。另一种是基于C-支持向量机和规则相结合来消除组合型歧义的算法。该算法的主要思想是利用C-支持向量机分类模型结合上下文规则库中的规则来对组合型歧义字段进行歧义消解,拓广了SVM的应用范围。
论文最后以大量的不同类型的语料作为测试集,做了封闭式和开放式的实验。实验结果表明,两种消歧算法消除歧义字段的正确率比较理想,验证了算法的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。