汉语自动分词的研究及实现

论文部分内容阅读

随着科技的发展和海量信息的涌现，信息处理技术已经成为当今世界发展不可或缺的一部分。要在海量信息中提取有用的知识，就必须要让机器“读懂”这些由人类语言描述的信息。词是最小的能够独立活动的有意义的语言成分，将词确定下来是智能信息处理和自然语言理解的第一步，只有跨越了这一步，才有可能对信息进行更深入的处理，以至于让机器“理解”人类的语言。针对汉语自动分词，对其相关技术进行了研究，包括词语粗切分、未登录词识别、切分排歧和词性标注等技术。在汉语自动分词的预处理阶段，综合了最短路径方法和全切分方法，给出了一种基于N—最短路径的汉语粗切分方法，并采用一定的算法对全切分有向图进行遍历，得到最优的N组粗分结果作为后续处理的对象，在保证效率的前提下提高了分词的准确率。未登录词识别一直都是汉语分词的难点之一。基于规则的方法和统计模型都被广泛的使用。本文针对中文人名的特点，参考统计模型，针对其存在的问题进行修改：不但将字段被识别为姓名的概率作为参考，而且将字段与其上下文（词或字）的共现概率也作为参考。二者相结合，提高了识别的准确率。同时引入一些规则，对该模型不能处理的问题进行补救，进一步提高识别准确率。切分排歧是汉语自动分词的另一个难点。分词系统的预处理阶段所产生的N组最优粗分结果正是由于歧义现象的存在，经过后续的处理才能获得最终的分词结果。获得全局最优结果的过程即为切分排歧的过程。在此过程中参考了最大概率模型，并在其基础上进行了修改，考虑了所有可能的切分词在全文的出现概率。可以进一步提高切分准确率。在词性标注阶段，将采用经典的Viterbi算法进行标注。在以上研究的基础上，认真分析了汉语自动分词系统实现的基本思想和组成框架，设计并实现了试验用的自动分词系统。

其他学术论文