论文部分内容阅读
脱机手写体汉字识别由于其字符集庞大,字形变化多等特点成为模式识别领域一个极具挑战性的课题。它将在信函分拣、银行支票识别、统计报表处理以及手写文稿自动输入等诸多方面发挥巨大作用。它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要意义。手写体汉字识别是一个非常复杂的多模式识别问题,多年研究实践表明,单一方法的效果是有限的,各种方法有其自身的优点和局限性。应用信息融合技术,采用多种方法有机结合,走多特征融合、多方案集成的道路,是手写体汉字识别的一个发展趋势。
本文研究对象为少量常用汉字,研究目标是探索非特定人限制性脱机手写体汉字识别的有效算法。实验选取了国标GB2312-80一级字库中的50类汉字,每类汉字采集100个样本,共5000个汉字样本。其中80%的数据用于训练,20%用于测试。
本文的主要内容及研究成果有以下几点:
(1)在分析当前汉字识别最新发展技术的基础上,设计了一套基于多特征融合、多分类器集成的汉字识别方案,即二级串行分类器集成模型。一级粗分类采用改进的ID3算法——基于层次分解思想的决策树作分类器,该算法具有描述简单、无须相关领域知识、分类速度快、计算量小的特点,为解决多类分类问题提供了有益帮助。本文对其在脱机手写汉字识别领域的可行性进行了探索性研究,并在数据整理,类与类之间重叠程度的阈值选取,连续属性离散化方面结合C4.5算法作了适当调整,利用C++Builder编程工具对系统设计模型进行了实验,结果表明该模型是有效的。
(2)为提高样本收集的效率和质量,并为今后大规模收集工作做准备,设计了带有定位标记的专用收集表格。在满足识别需要的前提下,简化了部分预处理步骤,提高了预处理效率。
(3)样本库采用二进制格式保存并构造Data数据结构作为入库单位。既节省了存储空间,又加快了读、写样本库的速度。
(4)一级粗分类中,在弹性网格的基础上提取了较为稳定的笔画穿越特征和笔画方向分解特征,构成决策树分类所需的14维属性集。并分析比较了选用不同属性作为测试属性的分类效果。二级细分类提取了周边特征,该特征与粗分类所需内部特征形成互补,较完整的反映了汉字的内外结构。
(5)在粗分类的结果集合中选取候选样本,利用周边特征结合距离分类器进行细分类,既缩小了候选集,又提高了识别速度。