论文部分内容阅读
文字是人类交流信息的工具,是简单的视觉图案再现口语所表达的形式。随着深度学习技术的不断发展,自然场景文本检测技术已经成为计算机视觉与模型识别等领域的重要研究课题之一。本文针对自然场景下的文本检测问题进行了研究,不同于传统的光学字符识别技术所识别的文本图片,自然场景图像中的文本在外观上,具有字符大小不统一、文本方向不确定、背景复杂等特点,使得检测难度较大,也为后续的识别过程带来不必要的麻烦。针对自然场景文本检测问题,世界各国的学者都提出了优秀的解决方法。但是这些方法或是计算简单准确性较差,或是有着复杂的参数计算,而且对不同的数据集泛化性较差,无法兼顾鲁棒性和准确性。
基于上述问题,本文以深度学习算法以及传统的算法为基础对自然场景下的文本检测任务进行了深入的理解和研究,本文主要做了以下工作:
1.数据的预处理与迁移学习。自然场景文本图像是场景文本检测技术兴起的源头,因为目前存在的公开数据集都具备不同的特点,所以本文为了使检测算法具有更好的效果,对所使用的数据集使用图像处理方向的算法,对图像进行尺度归一化以及图像增强处理。为了使后续的检测模型训练时能够更快的收敛,本文截取MSRA-TD500数据集中的真实标签圈定的文本区域作为正样本,再对背景区域进行随机切割作为负样本,以此来训练以Resnet-34模型对背景与文本进行分类,其中预训练模型的主干网络作为后续检测模型的特征提取网络。
2.传统检测算法与深度学习方法相结合的场景文本检测算法。本文通过对场景文本图像数据集中文本区域的对比分析,发现人们为了表述某一思想而书写的文字大多是相同的颜色。于是通过研究,在最大稳定极值区域(MSER)算法的基础上,构建了基于距离度量的区域灰度融合算法。使用该算法来去除小片背景区域以及将单独的字符区域进行合并以此来获取候选区域。为了区分候选区域是否为文本区域,以及对包含多个文本行的候选区域进行边框重定位,同时为了均衡文本检测算法的效率与准确性,本文将YOLO(YouOnly LookOnce)目标检测算法进行改进,将候选区域作为单独的图像数据对改进之后的YOLO算法进行训练,以此来去除背景区域以及对包含多个文本行的区域进行文本框的重定位。
3.在多个公开数据集上与不同的经典文本检测算法进行比较。通过算法的构建、实验与研究,在ICDAR2013、ICDAR2015、阿里天池ICPR2018数据集上进行实验,并与多个经典文本检测算法的在相同数据集上的结果进行对比,表明了本文算法在某类数据集上有着较好的鲁棒性,在不同的数据集上有着良好的泛化性,这也对后续的场景文本检测算法研究提供了一种不同的思路,在后续场景文本检测技术的研究和发展中,有着一定的参考价值。
基于上述问题,本文以深度学习算法以及传统的算法为基础对自然场景下的文本检测任务进行了深入的理解和研究,本文主要做了以下工作:
1.数据的预处理与迁移学习。自然场景文本图像是场景文本检测技术兴起的源头,因为目前存在的公开数据集都具备不同的特点,所以本文为了使检测算法具有更好的效果,对所使用的数据集使用图像处理方向的算法,对图像进行尺度归一化以及图像增强处理。为了使后续的检测模型训练时能够更快的收敛,本文截取MSRA-TD500数据集中的真实标签圈定的文本区域作为正样本,再对背景区域进行随机切割作为负样本,以此来训练以Resnet-34模型对背景与文本进行分类,其中预训练模型的主干网络作为后续检测模型的特征提取网络。
2.传统检测算法与深度学习方法相结合的场景文本检测算法。本文通过对场景文本图像数据集中文本区域的对比分析,发现人们为了表述某一思想而书写的文字大多是相同的颜色。于是通过研究,在最大稳定极值区域(MSER)算法的基础上,构建了基于距离度量的区域灰度融合算法。使用该算法来去除小片背景区域以及将单独的字符区域进行合并以此来获取候选区域。为了区分候选区域是否为文本区域,以及对包含多个文本行的候选区域进行边框重定位,同时为了均衡文本检测算法的效率与准确性,本文将YOLO(YouOnly LookOnce)目标检测算法进行改进,将候选区域作为单独的图像数据对改进之后的YOLO算法进行训练,以此来去除背景区域以及对包含多个文本行的区域进行文本框的重定位。
3.在多个公开数据集上与不同的经典文本检测算法进行比较。通过算法的构建、实验与研究,在ICDAR2013、ICDAR2015、阿里天池ICPR2018数据集上进行实验,并与多个经典文本检测算法的在相同数据集上的结果进行对比,表明了本文算法在某类数据集上有着较好的鲁棒性,在不同的数据集上有着良好的泛化性,这也对后续的场景文本检测算法研究提供了一种不同的思路,在后续场景文本检测技术的研究和发展中,有着一定的参考价值。