印刷体汉字识别系统的特征提取和匹配识别研究

被引量 : 0次 | 上传用户:liuyongqiang615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字有数千年的历史,也是世界上使用人数最多的文字,并且它不同于字母化和拼音化的文字,因此,汉字识别技术研究是社会信息化发展的关键因素。在这个信息爆炸的年代,如何让计算机高效地“理解”如此之多的特别是印刷体汉字信息,以此节省大量的人力,是汉字识别识别技术的重要问题。提高印刷体汉字识别效果,包括识别率和识别速度,对于办公自动化、机器翻译和人工智能等高科技领域,都有重要的实用价值和理论意义。本文以国家标准GB2312-80中第一级常用汉字共3755个汉字为字库,从最为影响印刷体汉字识别效果的特征提取和匹配识别两个方面分别进行阐述。文章对这两个方面的算法进行了仔细的研究,同时做出了重要的改进。相比原算法,改进算法在效率上有了很大的提升。本文的主要工作如下:(1)本文综合考虑了汉字结构特征和统计特征的优缺点,分析了诸多现如今汉字识别中常用的特征类型,有繁简度特征、连通体及封闭区域特征、外围及网格特征和汉字纹理特征等。在研究这些特征提取算法的基础上,分析它们存在的问题,并提出了相应的改进算法。这些改进算法一定程度上克服或者减弱了原有的问题,为实现组合优化特征提供了有力保证。另外也提出了汉字不变编码特征和基于汉字笔画类型的特征点特征等特征,在很大程度上提升了本套印刷体汉字识别系统的识别效果。(2)在匹配识别坏节,本文对常用的聚类算法,包括ISODATA、UPGMA、K-means以及K-means的一种改进算法进行了仔细地研究,并逐一分析了它们的优缺点,针对印刷体汉字识别提出了对应的问题解决方案。最后提出了一种基于UPGMA优化初始类中心的改进K-means聚类算法,该算法有效地结合了划分聚类和汇聚聚类算法的优点。实验表明,该方法具有聚类准确率高,聚类速度快等优点。在基于对汉字特征提取和匹配识别环节的重点研究的基础之上,统筹考虑整个系统流程配置,并开发出一套印刷体汉字识别系统,并取得了令人满意的识别效果。
其他文献
近年来,随着微波技术的进步,微波接收机也在飞速地发展。而接收机射频前端的设计往往对整个系统的非线性指标、噪声系数、稳定度、灵敏度、增益等重要特征起着决定性的作用。
本文对股权分置改革之后我国A股IPO抑价问题进行实证研究,分析了影响IPO抑价水平和定价效率的因素,在此基础上,提出完善发行制度、改革交易制度和优化市场环境等具体措施,以
随着人们对新能源的关注与日俱增,风能发电目前已经成为世界各国对可再生资源利用领域的研究热点,其中如何将不稳定的风能转化为可用的能与公共市电并网的电能是人们研究的焦
我国对大米品质的检测还停留在人工拣选阶段,效率低,缺乏客观性,延长了稻谷分级的周期,提高了复杂性。课题针对这一问题,设计了大米品质的动态检测设备,大米品质动态检测设备
1990年代以来,武汉城市土地开发势头高涨,城市空间内涵式发展与外延式拓展并存,城市空间演替加剧。在武汉城市空间转变的过程中,展示出了一个极具代表性的、富有规律的空间发
利用等温凝固方法研究了Ta对镍基高温合金凝固行为的影响。结果表明:Ta元素扩大了合金的凝固温度区间。Ta含量由6%提高到10%时,合金的液相线温度由1400℃降低到1380℃,固相线
相对于视觉传达设计而言,交互界面更加注重用户与界面的互动,用户对界面的理解将直接关系到用户能否顺利操作并达到自己的目的。通过对秩序感理论的阐述,说明秩序感对交互界
中国企业的信息技术(以下简称IT)建设正处在高速发展而又相对混乱的时期,而这个时期还伴随着企业的公司治理结构的不断调整。如何避免IT建设的风险,制定对企业有利的IT战略和
以62名男性大学生作为被试,通过实验法考察惩罚强度对攻击行为的影响。采用"竞争反应时"的实验范式,输的被试将接受不同强度的声音刺激作为惩罚,赢的被试将选择不同强度的声
<正> 由十三院校协编组编写、人民教育出版社出版的《中学数学教材教法总论》一书中指出:中学数学内容中的一些基本方法,“历来没有受到足够的重视,甚至连基本的总结也作得不