论文部分内容阅读
本文面向工程应用提出了一种新颖的基于退化隐马尔柯夫模型(Degraded Hidden Markov Model)的印刷体文字识别方法。 由于印刷体文字的字形相对固定,因此以往通常采用结构化的识别方法,并且取得了不错的识别率。在特征向量提取上,结构化方法中大多采用细化算法取得所需的笔段,而细化会带来笔段提取的错误,笔段的错误又会导致后面的文法推理错误,从而出现误识,针对这种错误以往采用的方法都比较繁琐。在HMM应用于文字识别方面,无论是联机文字识别还是脱机文字识别,一般都只采用左右型的模型结构,然而左右型的模型结构并不适合于本文所设计的特征向量。 通过对印刷体文字结构的分析,在本文提出了一种新的代表一个文字的特征向量——笔段序列向量,在本文中又称为观测序列向量,采用这种特征表达方式能够将二维平面文字信息转化为一维随机信号,并且保留了文字的几何信息。针对所设计的特征向量,在传统的隐马尔柯夫模型(HMM)基础上提出了一个新的处理一维随机序列的分类器——退化隐马尔柯夫模型。本文中的分类器采用了完全不同的状态转移方式,所形成的模型结构为遍历型的结构模型,该模型结构在保持字形结构完整的前提下,不受字号的影响。 实验结果表明本文所提方法受字号的影响比较小,并且在分辨率达到一定程度后对于识别率的影响度比较小,证明所设计的特征向量及其分类器能够很好地实现宋体印刷文字的识别。