论文部分内容阅读
字符识别是模式识别的一个重要分支,藏文字符识别则因其字型的结构复杂、相似字的比例高等原因,而一直是字符识别中一个具有挑战性的难题。相对于汉字的字符识别研究而言,目前印刷体藏文字符的识别研究还比较少。藏文字符的自动识别研究是进行少数民族语言文字信息处理和信息化的一个重要方面,它对于整理藏文记录的经典文献、古籍著述具有重要的价值,对于稳定边境和推进西部开发等方面也有潜在的作用。
本文首先介绍了字符识别的一般原理、步骤和字符识别的常用方法,以及印刷体藏文字符识别的特殊性和研究现状等。然后,文中对印刷体藏文字符识别进行了具体的研究。首先是藏文字丁图像的预处理,其过程大致可分为二值化、平滑、行字切分和归一化等步骤,预处理后将得到大小统一的藏文字丁图像。对于这里的每个步骤,文中都选取了适合于处理藏文字丁的方法:对于初始得到的藏文字符图像,首先采用整体阈值二值化方法对其进行了二值化处理,并使用中值滤波器对二值化之后的字符图像进行了平滑,然后,采用积分投影法进行行、字切分,最后通过三次B样条函数将藏文字符归一化为96×48的点阵。
第二步是特征提取工作,目的是为了去除图像信息中对分类没有帮助的部分,将图像信息集中到有代表性的特征上来的过程。特征向量中只有包含足够的类别信息,才有可能通过分类器完成无差错的模式分类。文中首先对前人提出的两种特征提取方法——图像投影法和方向线素法——进行了介绍。图像投影法的抗干扰能力较强,但是该方法区分相似字的能力较差;方向线素法的特征提取效果较好,通常能够提取出原字丁的足够特征,但其提取的特征向量维数过多,从而使得字丁匹配过程的复杂度较高。鉴于前面两种方法的不足,本文提出了一种基于分形矩的藏文字符特征提取算法,用该算法提取的特征可以有效地反映藏文字丁的局部和全局特征,在一定程度上克服了藏文相似字丁极多而造成的误识率高的缺点,并且解决了由于特征向量维数较多造成的运算速度慢的问题。
由于难以确定特征向量中是否已包含足够的类别信息,为了提高类别正确识别率,在进行特征提取时,往往尽可能地增加提取的特征的数目,这就使得提取到的特征向量中存在相关性和冗余,因此,为了减轻分类器的设计难度,提高系统的运行效率,在提取到藏文字丁的原始特征后,还需要进行特征选择(降维)。关于特征选择,文中主要对主成份分析和多重判别分析进行了介绍和分析对比。主成分分析的目的是寻找在最小均方意义下,最能够代表原始数据的投影,而多重判别分析的目的是寻找在最小均方意义下,最能够分开各类数据的投影。
最后一步工作是分类识别,在统计模式识别中,往往把各类模式的特征向量的统计平均值作为该类的基准模板,将待分类模式的特征向量与各类模式的基准模板进行比较,按照最小距离分类准则进行决策分类。本文把各个藏文字丁图像的特征向量的统计平均值作为该藏文字丁的基准模板,将待分类字丁图像的特征向量与各个藏文字丁的基准模板进行比较,采用最小距离分类器进行印刷体藏文字符的识别。并主要介绍了KNN算法和多种距离度量(欧氏距离、马氏距离和街区距离)下的Bayes分类算法。
文中使用不同的特征提取、特征选择和识别算法,进行了多次藏文字符识别实验,并从藏文字丁的识别率、识别速度、拒识率和识别的可靠性等方面,将它们进行了对比。在本文的藏文字丁分类识别实验中,通过使用方向线素法和分形矩法提取特征,使用主成分分析法选择特征并使用基于马氏距离的Bayes分类算法,可以达到最高的识别率。此时,对使用分形矩法提取到的特征进行识别时得到的识别率略高,并且对使用分形矩法提取到的特征进行分类识别时,其识别速度远远高于使用方向线素法时的速度。因此,本文提出的分形矩法可以提取出印刷体藏文字丁的足够特征,对它们进行分类时,可以获得很高的识别率和识别速度。