论文部分内容阅读
随着多媒体信息时代的来临,每天都会有各种各样的信息在大量产生并传播,而文字则是这些信息最重要的载体之一。因此,能够有效地检测到在自然场景条件下的文字,对于计算机理解图像中包含的高层语义信息十分重要,具有巨大的研究和应用价值。自然场景文字检测在车辆自动驾驶、智能导航、可视化交互、智能机器人等诸多应用场景有着广阔的前景和需求。目前,虽有大量算法应用于自然场景文字检测,但是大多数算法模型基于传统的人工设计特征和浅层模型,往往无法有效地学习到高层的语义特征并很好地对它们之间的关系进行建模。随着深度学习(Deep Learning)的提出和广泛应用,得益于深度卷积神经网络强大的自动学习特征能力和特征建模能力,深度学习在很多领域取得了成功,学术界与工业界开始着手将深度学习应用到自然场景文字检测算法里。本文针对自然场景下的文字所具有的几种特性如:尺寸变化大、宽高比例变化大、背景复杂易混淆、图片模糊、变形、光照不足等,以及根据现有算法模型的不足,在已有的相关理论和技术的基础上,提出与构建了一个基于深度卷积神经网络的自然场景下文字检测系统,并用实验对模型的文字检测效果进行验证。本文的主要工作包括以下几个方面:1、互联网中的图像和视频数量极其庞大,如果对所有的图像或视频都进行精细化检测,将耗费巨大的计算和存储资源;同时,由于现阶段文字检测器多为语种依赖的(Script-Based),因此一般需要先对图像包含的文本进行语种识别,再选择对应语种的文字检测器。本文构建一个基于特征块的文本图像过滤与语种识别模型,并将两个任务融合到一个模型里解决。该模型利用卷积神经网络的尺度不变性以及局部连接的特性,能快速分辨出自然场景图片中是否包含有文字区域,若判定图片包含文字区域,再对所包含的文字进行语种的判断,根据模型输出结果决定是否送入后续的检测模型进行精确的文字检测。算法在不遗漏重要文本信息的情况下有效地降低计算和存储资源的消耗,达到降低模型运算量、加快处理过程的目的。2、针对自然场景文字尺寸变化大、宽高比例变化大的特征,本文设计了一个先对局部文字进行检测再将其连接成完整文字的文字检测算法。不同于之前的文字检测算法大多对文本包围框直接进行回归的做法,本文采用首先回归待检测文字的局部区域(segment),再将这些segment连接起来形成完整单词或文本行的方法,使得文字检测算法对于不同尺寸、不同宽高比例的文字区域具有较高的鲁棒性。3、本文设计了监督自注意力模块(Guided Self-Attention Module,GSAM)和带孔空间金字塔Inception(Inception Atrous Spatial Pyramid Pooling,IASPP)子模块,GSAM利用全卷积神经网络强大的像素级别分类能力,给深度神经网络引入额外的监督信息,使得网络能快速定位到图片中包含有文字的区域,以此加强神经网络特征图对于文字区域的响应,抑制非文字区域的响应,减少特征映射中的干扰;而IASPP则通过扩展神经网络的感受野,增加网络对于不同尺寸文字的适应性,令得神经网络能更好地提取不同尺寸文字的特征以应对文字尺寸多变的问题。4、在训练局部文字框的正负判断时,本文使用Focal Loss损失函数,以减轻训练过程中正负样本以及难易样本不平衡的问题。加入关联嵌入(Associative Embedding)辅助连接模块,以聚类的方法提升“将局部文字框连接起来形成完整单词或文本行”这一过程的准确性,降低模型的误检率。实验结果表明本文提出的算法的运行速度、检测效果、流程简洁性、鲁棒性方面,对比本文之前的文字检测算法获得了较大的提高。