论文部分内容阅读
近年来,自然场景图像中的文字提取技术已经成为计算机视觉中的一个热点研究领域。自然场景中文字方向、形状、语言、大小的多样性以及拍摄角度、复杂背景和光照变化都给文字提取中的检测和识别技术带来了很大挑战。本文主要研究自然场景中任意方向和任意形状的文字提取技术。针对自然场景中出现的任意方向和任意形状的文字,本文提出了 一套文字提取系统,该系统主要由文字区域粗检测,字符提取,基于优化算法的文字区域细定位,文字矫正和文字识别五个模块组成,主要的步骤如下:(1)将场景图像送入基于ResNet50+F PN的网络模型进行文字区域检测,得到场景图像中一系列文字检测框;(2)对场景图像提取视觉显著图,在显著图上提取MSER(最大稳定极值区域)构成各候选字符。文字检测框和候选字符是后续处理的先决条件,利用二者在图像中的几何关系,计算各个文本框中包含的字符集合;(3)对于任意方向和任意形状的文字,采用不同的文字细定位策略。对于任意方向文字,本文提出了一种基于遗传算法的文字细定位算法,把各检测的文字框四个顶点作为初始种群中的一个染色体,以染色体围成的四边形内的字符和文字聚集度作为染色体的评价函数,利用遗传算法的优化计算得到最佳染色体,即细化的四边形文字框;对于曲线文字,本文提出了一种基于粒子群算法的曲线场景文字细定位算法。首先用各文字框中字符的中心点拟合生成字符的中心线,在字符中心线上均匀采样得到一系列采样点,再把各采样点为中心的空间邻域作为粒子群粒子位置点的活动区域,各粒子的位置点拟合的曲线作为文字的中心线,沿垂直于文字中心线方向上按粒子的距离信息生成各粒子位置点的等距点,最后各等距点的连线围成的多边形就是曲线文字的定位结果,这里粒子的评价函数为多边形内的字符和文字聚集度。(4)将定位的四边形或多边形送入基于TPS的矫正模块,得到矫正后的矩形文字区域;(5)将矫正的文字区域结送入基于FCN的识别模块,得到识别出的文字信息。为了验证本文方法的有效性,在任意方向文字数据集ICDAR2015,ICDAR2017,MSRA-TD500和曲线文字数据集CTW1500和Total-Text五个数据集上进行了实验验证,对 ICDAR2015,ICDAR2017,MSRA-TD500,CTW1500 和 Total-Text 数据集上的检测F平均值分别为 83.5%,72.8%,80.5%,80.2%和82.7%。ICDAR2015 数据集在 Word Spotting下的强、弱、通用三个字典的调和平均值分别为80.2%,74.6%,64.7%,在End-to-End下的强、弱、通用三个字典上调和平均值为78.8%,73.6%,63.4%;在CTW1500和Total-Text数据集上,检测和识别的综合性能评价上调和平均值分别为39.8%和48.3%。在五个数据集上,本文与近几年的提出的大部分基于深度学习的大部分方法相比,检测和综合性能基本相当,结果表明,本文针对任意形状文字的提取算法能够有效地提取各种文字信息,从而可以应用在语音导航定位、机器人功能优化等方面。