论文部分内容阅读
文本定位与识别技术一直以来都是图像处理、计算机视觉领域的一个重要研究分支。随着Internet技术、多媒体技术的发展,大量融合复杂背景的图像文本出现在各种应用场合。如何让计算机高效地“理解”复杂背景下的汉字信息,以节省大量的人力,是对汉字识别技术提出的一个新的挑战。而基于这些图像文本的汉字识别技术自然也就成为了一个新的研究方向。传统的光学字符识别软件OCR(Optical Character Recognition)不能很好地处理此类图片,且常用的汉字结构特征和统计特征在表征汉字信息时也存在一定的局限性。针对以上问题,本文创新性地提出了采用局部特征来描述汉字的想法。本文首先选取并分析了代表性较强的Harris、SIFT、MSER特征检测算法,通过对比实验得出SIFT算子的检测效果最佳。随后,重点围绕局部特征展开了研究和讨论,分析了SIFT算法原理,再由汉字的形状特征及图像灰度信息出发,提出了两种新的特征描述子:(1)SSIFT(Shape SIFT)基于汉字相对全局形状特征和SIFT特征的描述子;(2)灰度差值统计描绘子GSD(Gray Scale Difference)。实验结果表明,新的算法在一定程度上克服、削弱了存在的问题,对汉字的旋转、尺度缩放、背景干扰具有很好的不变性。本文借鉴图片匹配的方式,通过计算汉字识别率来度量各种汉字特征的描述能力。通过对相关实验数据的分析,本文进一步提出了一种由粗到精的匹配策略,使得识别率又有了一定程度的提高。几何约束策略是文本的另一个研究重点。本文首先提出汉字存在局部结构重复的问题,分析了几何约束的原理及作用。在此基础上,提出了一种基于Mean-shift聚类的几何约束方法及一种新的适用于高维向量的度量准则,这个方法很好地解决了由于局部特性过于相似带来的误匹配问题,空间位置关系的约束使识别性能在一定程度上又有了提升。本文的研究成果丰富了汉字识别技术及其应用的研究思路,具有一定的理论意义和应用价值。