论文部分内容阅读
在计算机视觉的任务中,自然场景的文字区域检测是一项具有挑战性的任务,在自然场景下检测文本区域有助于计算机对场景的理解和描述,计算机对于所处环境具有认知能力是无人车、家庭机器人等自动化设备的智能化的基础。随着互联网多媒体数据的积累和GPU等硬件计算能力的提升,深度学习开始应用在各项计算机视觉的任务中,在某些领域深度模型的性能远远超过一些传统算法。在多媒体视频的字幕区域检测任务中,基于颜色、空间尺度以及文字区域比例等传统方法已经取得较好的效果,但传统算法对于自然场景下的多语言文字区域的检测效果并不理想,本文提出了一种高效可行的方法,通过验证单语言文字区域检测模型的泛化能力,将已训练的单语言检测模型迁移到多语言检测任务中。深度学习的方法需要数据量巨大的标注训练集,在数据增广方面,数据生成系统能够生成具有多尺度字形和丰富字体的自然场景数据,解决了标注数据匮乏的问题;在算法方面,将语义分割模型迁移到文字区域检测的任务中,利用带标签的单语言字符数据训练VGG模型得到单语言的字符分类器,并将该网络的卷积层部分迁移到全卷积网络中作为特征提取器,同时作为全卷积网络的初始化参数;在模型泛化方面,将单语言检测模型通过迁移学习应用到多语言文字区域检测的任务中,将已训练的单语言检测模型经过多语言标签数据集微调后,通过设置对比实验评估单语言检测模型和多语言检测模型的模型偏差,验证了单语言检测模型具有自然场景下检测多语言文字区域的能力。