汉语自动分词的研究及实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:honghe2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分。要在海量信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言描述的信息。词是最小的能够独立活动的有意义的语言成分,将词确定下来是智能信息处理和自然语言理解的第一步,只有跨越了这一步,才有可能对信息进行更深入的处理,以至于让机器“理解”人类的语言。 针对汉语自动分词,对其相关技术进行了研究,包括词语粗切分、未登录词识别、切分排歧和词性标注等技术。在汉语自动分词的预处理阶段,综合了最短路径方法和全切分方法,给出了一种基于N—最短路径的汉语粗切分方法,并采用一定的算法对全切分有向图进行遍历,得到最优的N组粗分结果作为后续处理的对象,在保证效率的前提下提高了分词的准确率。未登录词识别一直都是汉语分词的难点之一。基于规则的方法和统计模型都被广泛的使用。本文针对中文人名的特点,参考统计模型,针对其存在的问题进行修改:不但将字段被识别为姓名的概率作为参考,而且将字段与其上下文(词或字)的共现概率也作为参考。二者相结合,提高了识别的准确率。同时引入一些规则,对该模型不能处理的问题进行补救,进一步提高识别准确率。切分排歧是汉语自动分词的另一个难点。分词系统的预处理阶段所产生的N组最优粗分结果正是由于歧义现象的存在,经过后续的处理才能获得最终的分词结果。获得全局最优结果的过程即为切分排歧的过程。在此过程中参考了最大概率模型,并在其基础上进行了修改,考虑了所有可能的切分词在全文的出现概率。可以进一步提高切分准确率。在词性标注阶段,将采用经典的Viterbi算法进行标注。 在以上研究的基础上,认真分析了汉语自动分词系统实现的基本思想和组成框架,设计并实现了试验用的自动分词系统。
其他文献
多元智能理论是美国著名心理发展学家霍华德加德纳提出的关注学生的多元智能发展的一种教学理论.加德纳认为,支撑多元智能理论的是学生个体身上相对独立存在着的、与特定的认
期刊
课堂提问是非常重要的课堂活动,问题能激活学习者的思维.老师要优化提问技巧,提出趣味性问题,探究性问题和层次性问题,让学生在回答问题中提升学习能力,实现英语课堂的有效性
期刊
足球是一项深受广大学生喜爱的体育活动,尤其是在高级中学中,足球已经成为学生解压的一种方式和项目,颇受学生青睐.为了让高中生接触到更好的足球教育,在教学中,教师应当重视
期刊