论文部分内容阅读
识别文本图像是计算机视觉领域的一个重要研究课题。随着深度学习理论技术的发展,对于背景简单且规则的场景文本,人们已提出比较成熟的基于深度神经网络的解决方案,其结果明显优于基于手工特征的解决方案。伴随互联网规模和多媒体信息的不断发展和膨胀,文字也出现在各类复杂场景中,例如,街景、商品包装、拍照表单、交通引导等。这些场景背景复杂,文字多样,图像质量低,因此,研究者逐渐开始关注现实生活中经常出现且理解难度较大的复杂场景下不规则文本识别任务。现有自然场景文本识别技术多是基于序列模式的深度卷积网络和循环神经网络结合的编码解码模型。虽然这一技术取得了较好的结果,但是在解决复杂场景不规则的文本上仍然存在如下问题:第一,这种基于序列到序列的场景文本识别方法,虽将上下文建模视为其实现更好性能的关键组成部分,但是,他们通常只考虑在单一维度上整体或单尺度局部序列上下文依赖关系。事实上,场景文本或序列上下文可以在二维(2-D)空间中较为自由的样式多尺度跨越,而不仅局限于一维方向单一尺度。各种尺度的上下文感知将有助于复杂场景文本识别,特别对不规则文本的识别。第二,场景文本识别中的关键挑战是如何适当地捕获和利用丰富的上下文信息来消除场景文本解释的歧义。卷积神经网络(CNN,Convolutional Neural Network)和递归神经网络(RNN,Recurrent Neural Network)的最新发展带来了识别器上下文建模能力的提高。但是,这些方法与实际视觉神经元所涉及的上下文调制过程之间仍然存在很大差距,因为这些方法在特征提取阶段很难自适应地获得从局部到全局的多尺度上下文信息。1.提出基于二维多尺度感知上下文的场景文本识别算法。在此算法中,我们以二维方式考虑上下文,同时考虑从局部到全局的全尺度的上下文推理。为此,我们先构建一个新的二维多尺度感知上下文(TDMSPC,Two-Dimensional Multi-Scale Perceptive Context)模块,该模块沿水平和垂直方向进行多尺度上下文学习,然后将多尺度上下文信息合并。这可以生成与形状和字符排列相适应的特征图,以解决场景文本识别中不规则文本难题。在模块设计的基础上,我们将此模块插入到现有基于序列的框架中,以替换其集中上下文学习机制。此外,通过使用TDMSPC模块作为上下文强化编码的基本功能块重新构建新的识别编码网络,并采用基于注意力机制的LSTM作为解码器,构建了一个全新的场景文本识别系统TDMSPC-Net。在基准数据集上的实验表明,TDMSPC模块可以大大提高现有基于序列的场景文本识别系统性能。提出的全新识别系统TDMSPC-Net在所有基准数据集上都取得了到最佳性能。2.提出环境适应性上下文调制算法。针对当前不规则场景文本需要依赖更强的上下信息提取,而当前上下文信息建模和人类视觉神经元的上下文调制机制之间存在很大差距。因此,受启发于神经科学的上下文调制机理,论文尝试在场景文本识别网络设计中实现视觉神经元的上下文调制机制。具体地,设计了一个轻量级尺度感知上下文调制(SACM,Scale-Aware Context Modulation)模块,该模块由两个主要部分组成。第一部分是类递归扩张式卷积单元,使用扩张卷积捕获不同尺度的上下文信息,并且使用类似递归结构的网络进行多层连接设计,以实现在多尺度上下文中更好的语义一致性对齐。第二部分是基于通道的尺度注意力单元,利用通道注意力机制进行上下文尺度选择,以实现输入特征图按点的上下文调制。进一步将SACM模块插入成熟多语义阶段的卷积神经网络中,构建了具有上下文调制编码器和2D注意力增强的RNN解码器的场景文本识别系统。标准数据集上的实验表明,所提出的方法在常规和不规则文本方面均取得最佳识别性能。除此之外,利用提出的模块进行了轻量化复杂场景不规则文本识别网络的设计探索,取得相比同等规模识别网络明显的性能优势,为应用落地或者移植到移动终端奠定了算法基础。