论文部分内容阅读
自然场景中的文字可以表达高级的图像语义内容,它是人类理解自然场景图像的关键元素,在无人驾驶技术中,对道路的交通标志、路牌等字符图像的自动识别是急需要解决的关键技术,因此,对自然场景中的文字进行检测与识别的研究具有较强的实际应用价值。自然场景文字检测是自然场景光学字符识别(OCR)中非常重要的一个前处理环节,所有的文字识别图片都是来源于文字检测到的区域。在传统的光学字符识别中,处理的对象通常是分辨率较高的图像,具有背景相对简单、颜色单一并且排版规整的特点,因此文字检测和文字识别的难度较小。与传统的文字识别相比,自然场景文字检测任务更为复杂也更具有挑战性:一方面,自然场景中的文字具有多样性,比如大小、颜色、字体、方向和排列组合方式都有可能不同;另一方面,自然场景中的背景复杂,比如光照强度、分辨率、噪声和物体遮挡等诸多不确定的因素,给自然场景中的文字检测带来非常大的困难。本文首先介绍了基于最大稳定极值区域(MSER)[1]的自然场景文字检测算法,基于最大稳定极值区域的算法在处理背景复杂的图像时不具有鲁棒性的缺陷,本文引入一种基于深度学习的通用目标检测算法(Single Shot Multibox Detector,SSD[2])对自然场景中的文字进行检测。SSD无法对自然场景中的极端高宽比的文字进行检测。本文第三章和第四章针对SSD的这一缺陷进行了改进,提出了一种自然场景中水平方向文字检测的算法(Text-HD)和另一种自然场景中任意方向(多反向)文字检测的算法(Text-OD),两种算法都是通过一个单网络模型直接对目标进行分类和位置回归。Text-HD在default boxes(预选框)上设计了专门针对极端高宽比文字的尺度比,而且在Textbox层专门设计了“长”型(1*5)的卷积核,能够高效的对不同高宽比的自然场景中的水平方向文字进行检测。Text-OD将Textbox层的“长”卷积改成3*5,同时用回归四边形的方法替代了水平文字检测的水平边界包围框的方法,对自然场景中的多方向文字进行了完美的匹配,而且在保证较高的检测率的同时也能达到较快的检测速度,该算法除了非极大值抑制(NMS)[3]处理以外没有其他的后处理操作。