论文部分内容阅读
文本区域定位是指利用图像处理的理论和方法将图像中的文本区域准确的标定出来。由于图像中的文字携带了描述和理解图像内容的重要信息,文本区域定位已成为近几年图像分析与处理领域的研究热点之一。本文对图像中复杂背景下的文本区域定位方法进行了研究,具体的工作如下:1、针对复杂背景中与文本结构相似造成的背景区域干扰的问题,提出了基于区域分析和特征分类的文本区域定位的方法。区域分析阶段在RGB三通道通过边缘检测得到边缘图像,并利用连通区域分析粗略确定文本候选区域;特征分类阶段提取候选区域的方向梯度直方图作为梯度特征、提取候选区域的局部二值模式作为纹理特征,并对纹理特征提出阈值自适应的改进的局部二值模式。仿真实验结果表明,基于区域分析和特征分类的文本区域定位的方法,能够较好的降低复杂背景中相似结构干扰的影响,准确的定位文本区域。2、针对经典的笔画宽度变换依赖于边缘检测结果以及只根据区域规则确定文本区域导致定位不够准确的问题,提出在最稳定极值区域内通过距离变换得到笔画宽度并利用笔画特征进行文本定位的改进方法。首先对图像进行对比度增强生成亮文本图像与暗文本图像,来克服图像模糊的影响,然后在检测出的最稳定极值区域内通过距离变换来确认笔画宽度,接着提取区域的笔画特征进行分类,滤除非文本区域,最后通过文本聚合将相邻的文本连接起来形成文本行。仿真实验结果表明,相比于经典的笔画宽度变换,改进的笔画宽度变换能够更准确的定位文本区域。3、针对利用图像分割分类文本区域时,类别单一的特征会导致分类准确率不高的问题,提出一种基于最稳定极值区域的一元特征和二元特征构建图割模型的文本分类方法,并以此定位文本区域。首先以图像的最稳定极值区域作为文本候选区域,然后提取候选区域的梯度特征、中心环绕直方图和笔画宽度变异系数作为一元特征,提取颜色分布特征和区域相似性作为二元特征,根据一元特征和二元特征构建图割模型,通过求得最优分割来分类文本候选区域,去除背景区域后通过文本聚合得到最终定位的结果。仿真实验结果表明,基于多特征构造图割模型的文本定位方法能够提升文本区域分类的精确度,提高文本定位的准确率。