基于层次分解决策树的脱机手写体汉字识别研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:wecofe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脱机手写体汉字识别由于其字符集庞大,字形变化多等特点成为模式识别领域一个极具挑战性的课题。它将在信函分拣、银行支票识别、统计报表处理以及手写文稿自动输入等诸多方面发挥巨大作用。它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要意义。手写体汉字识别是一个非常复杂的多模式识别问题,多年研究实践表明,单一方法的效果是有限的,各种方法有其自身的优点和局限性。应用信息融合技术,采用多种方法有机结合,走多特征融合、多方案集成的道路,是手写体汉字识别的一个发展趋势。 本文研究对象为少量常用汉字,研究目标是探索非特定人限制性脱机手写体汉字识别的有效算法。实验选取了国标GB2312-80一级字库中的50类汉字,每类汉字采集100个样本,共5000个汉字样本。其中80%的数据用于训练,20%用于测试。 本文的主要内容及研究成果有以下几点: (1)在分析当前汉字识别最新发展技术的基础上,设计了一套基于多特征融合、多分类器集成的汉字识别方案,即二级串行分类器集成模型。一级粗分类采用改进的ID3算法——基于层次分解思想的决策树作分类器,该算法具有描述简单、无须相关领域知识、分类速度快、计算量小的特点,为解决多类分类问题提供了有益帮助。本文对其在脱机手写汉字识别领域的可行性进行了探索性研究,并在数据整理,类与类之间重叠程度的阈值选取,连续属性离散化方面结合C4.5算法作了适当调整,利用C++Builder编程工具对系统设计模型进行了实验,结果表明该模型是有效的。 (2)为提高样本收集的效率和质量,并为今后大规模收集工作做准备,设计了带有定位标记的专用收集表格。在满足识别需要的前提下,简化了部分预处理步骤,提高了预处理效率。 (3)样本库采用二进制格式保存并构造Data数据结构作为入库单位。既节省了存储空间,又加快了读、写样本库的速度。 (4)一级粗分类中,在弹性网格的基础上提取了较为稳定的笔画穿越特征和笔画方向分解特征,构成决策树分类所需的14维属性集。并分析比较了选用不同属性作为测试属性的分类效果。二级细分类提取了周边特征,该特征与粗分类所需内部特征形成互补,较完整的反映了汉字的内外结构。 (5)在粗分类的结果集合中选取候选样本,利用周边特征结合距离分类器进行细分类,既缩小了候选集,又提高了识别速度。
其他文献
随着互联网技术的发展与应用的深化,各种数据呈爆炸式增长,数据密集型应用的负载特性与传统应用具有很大区别,传统处理器利用时空局部性提升性能的方法将不再适用。因此,针对
随着近年来互联网技术的快速兴起,在线社交网络作为一种现实社交在互联网中的投射物,越来越具有相当的研究价值。在现实社会关系中,以自然人为节点,人与人之间的各种直接联系为边
近年来由于计算机技术在工程设计领域的广泛应用,使CAD(计算机辅助设计)技术迅速发展起来。协同CAD系统是CSCW技术的一个典型应用。它支持不同地理位置的多个设计者通过分工
由于空间网络相较于传统地面网络具有长传播时延、高误码率、带宽不对称,连接易中断的特点,现有的传输机制难以满足其高效传输的要求。本文针对空间网络的特点,通过将链路状
近年来,随着信息技术的蓬勃发展,社交网络、电子商务,网络游戏等已经成为一种重要的市场行为,随之而来的是网域空间虚拟资产数据的巨大增长。虚拟资产保全系统旨在对这些海量
随着计算机及其相关技术的发展,通信能力和计算能力的价格正变得越来越便宜,各种新形念的传感器所占用的体积也越来越小。由于对生产效率、生活质量的不懈追求,人们开始希望能随
近年来,无线通信和电子技术的不断进步,促进了微型无线通信传感器节点的长足发展。由这些低功耗、多功能的节点所构成的无线传感器网络具有十分广阔的应用前景,目前已成为计算机
数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是
随着网络技术的不断发展,互联网的普及率以及网民的数量的不断攀升,给人们的学习和日常生活带来了极大的便利。与此同时,针对网络的攻击手段日益复杂,网络攻击软件日趋多样,网络安
随着计算机和网络技术的飞速发展,计算机安全问题日益突出。入侵检测是计算机安全体系结构中的一个重要的组成部分。目前入侵检测系统的研究已经有了长足的进步,开发出了许多