基于分形矩的印刷体藏文字符识别技术研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:L175913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符识别是模式识别的一个重要分支,藏文字符识别则因其字型的结构复杂、相似字的比例高等原因,而一直是字符识别中一个具有挑战性的难题。相对于汉字的字符识别研究而言,目前印刷体藏文字符的识别研究还比较少。藏文字符的自动识别研究是进行少数民族语言文字信息处理和信息化的一个重要方面,它对于整理藏文记录的经典文献、古籍著述具有重要的价值,对于稳定边境和推进西部开发等方面也有潜在的作用。 本文首先介绍了字符识别的一般原理、步骤和字符识别的常用方法,以及印刷体藏文字符识别的特殊性和研究现状等。然后,文中对印刷体藏文字符识别进行了具体的研究。首先是藏文字丁图像的预处理,其过程大致可分为二值化、平滑、行字切分和归一化等步骤,预处理后将得到大小统一的藏文字丁图像。对于这里的每个步骤,文中都选取了适合于处理藏文字丁的方法:对于初始得到的藏文字符图像,首先采用整体阈值二值化方法对其进行了二值化处理,并使用中值滤波器对二值化之后的字符图像进行了平滑,然后,采用积分投影法进行行、字切分,最后通过三次B样条函数将藏文字符归一化为96×48的点阵。 第二步是特征提取工作,目的是为了去除图像信息中对分类没有帮助的部分,将图像信息集中到有代表性的特征上来的过程。特征向量中只有包含足够的类别信息,才有可能通过分类器完成无差错的模式分类。文中首先对前人提出的两种特征提取方法——图像投影法和方向线素法——进行了介绍。图像投影法的抗干扰能力较强,但是该方法区分相似字的能力较差;方向线素法的特征提取效果较好,通常能够提取出原字丁的足够特征,但其提取的特征向量维数过多,从而使得字丁匹配过程的复杂度较高。鉴于前面两种方法的不足,本文提出了一种基于分形矩的藏文字符特征提取算法,用该算法提取的特征可以有效地反映藏文字丁的局部和全局特征,在一定程度上克服了藏文相似字丁极多而造成的误识率高的缺点,并且解决了由于特征向量维数较多造成的运算速度慢的问题。 由于难以确定特征向量中是否已包含足够的类别信息,为了提高类别正确识别率,在进行特征提取时,往往尽可能地增加提取的特征的数目,这就使得提取到的特征向量中存在相关性和冗余,因此,为了减轻分类器的设计难度,提高系统的运行效率,在提取到藏文字丁的原始特征后,还需要进行特征选择(降维)。关于特征选择,文中主要对主成份分析和多重判别分析进行了介绍和分析对比。主成分分析的目的是寻找在最小均方意义下,最能够代表原始数据的投影,而多重判别分析的目的是寻找在最小均方意义下,最能够分开各类数据的投影。 最后一步工作是分类识别,在统计模式识别中,往往把各类模式的特征向量的统计平均值作为该类的基准模板,将待分类模式的特征向量与各类模式的基准模板进行比较,按照最小距离分类准则进行决策分类。本文把各个藏文字丁图像的特征向量的统计平均值作为该藏文字丁的基准模板,将待分类字丁图像的特征向量与各个藏文字丁的基准模板进行比较,采用最小距离分类器进行印刷体藏文字符的识别。并主要介绍了KNN算法和多种距离度量(欧氏距离、马氏距离和街区距离)下的Bayes分类算法。 文中使用不同的特征提取、特征选择和识别算法,进行了多次藏文字符识别实验,并从藏文字丁的识别率、识别速度、拒识率和识别的可靠性等方面,将它们进行了对比。在本文的藏文字丁分类识别实验中,通过使用方向线素法和分形矩法提取特征,使用主成分分析法选择特征并使用基于马氏距离的Bayes分类算法,可以达到最高的识别率。此时,对使用分形矩法提取到的特征进行识别时得到的识别率略高,并且对使用分形矩法提取到的特征进行分类识别时,其识别速度远远高于使用方向线素法时的速度。因此,本文提出的分形矩法可以提取出印刷体藏文字丁的足够特征,对它们进行分类时,可以获得很高的识别率和识别速度。
其他文献
本文以高动态GPS卫星信号模拟器的开发为背景,着重对其中涉及的两项关键技术(载波数控震荡器和码数控震荡器)的设计进行了研究。最后简要的对GPS卫星信号模拟器的软件部分以及
在当前大数据时代背景下,信息技术和大数据技术得以广泛应用,这也推进了医院信息化发展的进程.信息技术在医院中的应用,有效的促进了医院信息管理系统的建设.医院通过构建完
山东省的很多企业、事业单位也运用了网络信息技术与电子信息化管理模式管理档案文件,这在一定程度上促进了档案的管理效率,也让档案管理方式有了新的变革.这里我们浅谈电子
当前信息检索技术面临着各种信息资源更新越来越快,用户检索结果要求越来越精确的严重挑战,如何有效地找到所需信息因而成为了一个关键问题,语义检索是解决这一问题的非常有
在科技日益发展的今天,传统的财务管理已经无法满足企业管理的要求,必须朝财务管理智能化方向发展.在发展过程中,企业必须要意识到财务管理智能化的重要性,积极创新财务管理
随着中国经济的快速发展,电力行业也找到了自身的定位和发展方向,对推动国民经济的发展发挥积极作用.想要进一步提高电力企业的管理水平,增加企业的凝聚力和核心竞争力,就必
新时期国家信息化卫生建设环境中,居民电子健康档案平台的构建和管理与人们的生命健康相关联,并在互联网技术的影响下逐渐具备数字化特点.本文围绕数据结构等方面探究居民电
计算机网络技术的快速发展和推广是社会发展的必然趋势,我们应当给予其高度重视,并在把握其内涵和特点的基础上,不断运用科学先进的防范技术做好计算机网络安全防范工作,保护
计算机技术作为现代科学技术的标志性技术之一,应用于科技管理,能够起到相得益彰的效果.本文围绕基于计算机技术的科技管理特点展开分析,介绍了其普适性、当前存在的问题及解