论文部分内容阅读
自然场景中的文本定位方法研究是文本检测领域的难点。随着科学技术的发展,人们对于信息获取的来源不再仅限于书本杂志,在随处可见的自然场景中包含了丰富的信息,因此如何快速准确的获取到自然场景中的文本信息显得尤为重要。目前,有许多专家学者基于各种特征进行文本定位,然而受自然场景中复杂背景环境及拍摄设备等因素影响,文本定位的准确度仍不够理想。针对自然场景图像视点不同所产生的文本形变及对不同语言文本适用性的问题,本文提出了一种基于最大稳定极值区域特征与优化的笔划宽度变化特征融合的文本定位方法,利用最大稳定极值区域的仿射不变性及不同语言文字笔划宽度均稳定变化的特点来获取图像中的候选文本区域,并对候选文本域进行过滤筛选,从而得到较好的定位效果。本文主要运用了图像灰度化处理、图像边缘化处理、最大稳定极值区域特征提取、笔划宽度变化特征提取、先验信息过滤等方法,主要包含了以下几方面的工作:(1)本文介绍了目前自然场景中文本定位方法的研究背景与现状,并对经典场景文本定位方法的实现原理及实验流程进行了详细分析,概括了各经典方法的特点及优劣,作为文本定位方法中特征选取的理论基础及依据。(2)基于最大稳定极值区域特征对自然场景图像进行文本域的获取,利用最大稳定极值区域的仿射不变性和高鲁棒性特点,解决自然场景图像拍摄视点不定导致文本形变的问题。该方法首先对图像进行灰度化处理,并通过计算阈值变化过程中图像极值区域面积的最小变化率来提取最大稳定极值区域,然后利用先验信息等方法过滤非文本域,进而得到最终结果。(3)本文提出了基于最大稳定极值区域和优化的笔划宽度变化特征融合的文本定位方法。该方法在保留最大稳定极值区域仿射不变性的同时,融入的笔划宽度变化特征,利用该特征对各种语言及字体形式文本的通用性,提高定位方法的适用范围。首先对场景图像进行预处理,然后提取图像的最大稳定极值区域特征及优化笔划宽度变化特征,基于特征生成候选连通域并过滤合并,最后得到连续的文本区域。实验结果显示,该方法既可以解决自然场景图像中的文本形变问题,也可以很好地适用于各种语言及形式的文本,能够较为准确的定位出自然场景中文本。未来可针对部分特殊的场景环境作进一步的研究,例如提高对强光照射或者光线昏暗的场景中文本区域获取的准确性等,并可着力于减少文本定位方法的计算成本及时间复杂度。