论文部分内容阅读
自然场景图像的文字识别是计算机视觉领域的热点研究问题之一。自然场景图像中文字时常出现透视变形或弯曲变形等不规则排列现象,这种不规则文字增大了识别难度。本文的主要工作是针对自然场景图像中的不规则文字识别问题,基于深度学习算法构建不规则文字识别模型,模型包含矫正网络、特征提取网络、识别网络三个部分。矫正网络采用基于薄板样条变换的空间变换网络对原始图像进行自适应变形,得到矫正后的更规则更易识别的图像。在矫正网络中应用ResNet和Batch Normalization,以此来提高模型识别准确率和加快模型的收敛速度。特征提取网络基于卷积循环神经网络设计。其中,卷积网络为32层的ResNet用于提取图像的视觉特征信息并且输出二维特征图,循环网络为双层BiGRU用于提取文字序列信息并且输出一维特征序列。识别网络引入两种二维注意力机制解码器:基于Bahdanau Attention的二维注意力机制解码器和基于Luong Attention的二维注意力机制解码器。分别采用这两种解码器对特征提取网络的输出特征图和特征序列抓取重要信息,从而解码得到预测字符序列。实验结果表明,本文在矫正网络使用ResNet和Batch Normalization,模型的识别准确率和收敛速度上均有一定提高。识别网络中使用二维注意力机制解码器比一维注意力机制解码器更能够提高识别准确率,并且基于Luong Attention的二维注意力机制解码器的识别效果稍优于基于Bahdanau Attention的二维注意力机制解码器。