论文部分内容阅读
汉字有数千年的历史,也是世界上使用人数最多的文字,并且它不同于字母化和拼音化的文字,因此,汉字识别技术研究是社会信息化发展的关键因素。在这个信息爆炸的年代,如何让计算机高效地“理解”如此之多的特别是印刷体汉字信息,以此节省大量的人力,是汉字识别识别技术的重要问题。提高印刷体汉字识别效果,包括识别率和识别速度,对于办公自动化、机器翻译和人工智能等高科技领域,都有重要的实用价值和理论意义。本文以国家标准GB2312-80中第一级常用汉字共3755个汉字为字库,从最为影响印刷体汉字识别效果的特征提取和匹配识别两个方面分别进行阐述。文章对这两个方面的算法进行了仔细的研究,同时做出了重要的改进。相比原算法,改进算法在效率上有了很大的提升。本文的主要工作如下:(1)本文综合考虑了汉字结构特征和统计特征的优缺点,分析了诸多现如今汉字识别中常用的特征类型,有繁简度特征、连通体及封闭区域特征、外围及网格特征和汉字纹理特征等。在研究这些特征提取算法的基础上,分析它们存在的问题,并提出了相应的改进算法。这些改进算法一定程度上克服或者减弱了原有的问题,为实现组合优化特征提供了有力保证。另外也提出了汉字不变编码特征和基于汉字笔画类型的特征点特征等特征,在很大程度上提升了本套印刷体汉字识别系统的识别效果。(2)在匹配识别坏节,本文对常用的聚类算法,包括ISODATA、UPGMA、K-means以及K-means的一种改进算法进行了仔细地研究,并逐一分析了它们的优缺点,针对印刷体汉字识别提出了对应的问题解决方案。最后提出了一种基于UPGMA优化初始类中心的改进K-means聚类算法,该算法有效地结合了划分聚类和汇聚聚类算法的优点。实验表明,该方法具有聚类准确率高,聚类速度快等优点。在基于对汉字特征提取和匹配识别环节的重点研究的基础之上,统筹考虑整个系统流程配置,并开发出一套印刷体汉字识别系统,并取得了令人满意的识别效果。