论文部分内容阅读
随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分。要在海量信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言描述的信息。词是最小的能够独立活动的有意义的语言成分,将词确定下来是智能信息处理和自然语言理解的第一步,只有跨越了这一步,才有可能对信息进行更深入的处理,以至于让机器“理解”人类的语言。
针对汉语自动分词,对其相关技术进行了研究,包括词语粗切分、未登录词识别、切分排歧和词性标注等技术。在汉语自动分词的预处理阶段,综合了最短路径方法和全切分方法,给出了一种基于N—最短路径的汉语粗切分方法,并采用一定的算法对全切分有向图进行遍历,得到最优的N组粗分结果作为后续处理的对象,在保证效率的前提下提高了分词的准确率。未登录词识别一直都是汉语分词的难点之一。基于规则的方法和统计模型都被广泛的使用。本文针对中文人名的特点,参考统计模型,针对其存在的问题进行修改:不但将字段被识别为姓名的概率作为参考,而且将字段与其上下文(词或字)的共现概率也作为参考。二者相结合,提高了识别的准确率。同时引入一些规则,对该模型不能处理的问题进行补救,进一步提高识别准确率。切分排歧是汉语自动分词的另一个难点。分词系统的预处理阶段所产生的N组最优粗分结果正是由于歧义现象的存在,经过后续的处理才能获得最终的分词结果。获得全局最优结果的过程即为切分排歧的过程。在此过程中参考了最大概率模型,并在其基础上进行了修改,考虑了所有可能的切分词在全文的出现概率。可以进一步提高切分准确率。在词性标注阶段,将采用经典的Viterbi算法进行标注。
在以上研究的基础上,认真分析了汉语自动分词系统实现的基本思想和组成框架,设计并实现了试验用的自动分词系统。