论文部分内容阅读
由于复杂背景图像中的文本类型变化多样、背景错综复杂等原因,复杂背景图像文本定位一直是一个具有很大难度和挑战性的研究课题。本文在总结现有主要文本定位方法的基础上,对复杂背景图像中的中文和英文文本定位方法进行了研究,提出了一种有效的用于中文文本定位与英文文本定位的解决方案。本文提出的文本定位方法主要由图像分割、候选文本区域生成、文本分类三大部分组成。在图像分割部分,探讨了一些现有常用的图像分割算法,并提出了一种改进的基于均值漂移的图像分割算法,通过实验发现,该分割算法能够很好的将背景与文本分割开,并且图像分割后的背景显得均匀,这样可以使得连通区域数更少,降低文本提取过程的复杂度。在候选文本区域生成部分的文本区域鉴定阶段,提出了三个限制条件:基于文本角点信息的限制条件、基于x轴投影的限制条件以及基于文本不会出现在图像边界的限制条件。另外,在文本区域合并阶段,提出了一种刷子算法,该刷子算法能够很好地将分散的英文字符合并成一个完整的英文单词以及将一个汉字的不同部件合并成一个完整的汉字。实验结果表明,本文所提出的候选文本区域生成算法能够快速、完整的得到图像中的候选文本区域。在文本分类部分,针对中英文的不同特性,分别提取不同特征送入AdaBoost分类器进行文本分类。在英文文本分类中,提出了两种不同策略提取方向梯度直方图(HOG)特征以及局部二值模式(LBP)特征并比较了它们的分类效果,选择了将HOG特征与LBP特征组合一起作为英文文本分类特征。另外,在中文文本分类中,针对中文文本的特性,提取图像的Gabor特征以及均值、方差、能量、熵、惯量、局部统一性这6种纹理特征进行分类,并与HOG+LBP特征的分类效果进行了比较测试。实验结果表明,所提取的这些特征能够很好地表征中英文文本的特性,可以有效地定位复杂背景图像中的文本区域。利用ICDAR2003数据库中251幅测试图像对英文文本定位方法进行测试,定位的准确率为0.71,召回率为0.65;利用自建的100幅中文测试图像对中文文本定位方法进行测试,定位的准确率为0.72,召回率为0.68;结果验证了本文方法的有效性。