论文部分内容阅读
随着智能交通系统、视觉辅助和自动驾驶等新技术的发展,通过摄像头获取场景图像,并利用计算机对场景图像的内容进行分析和理解成为当前学术界和工业界的研究热点。与纷繁复杂的背景相比,场景图像中的文字携带了更多的有用信息,是理解场景内容的有效线索。因此,自然场景图像中的文本定位和识别技术成为计算机视觉和模式识别领域的重要研究课题。目前,国内外的研究主要针对自然场景中的英文字符,对中文字符的研究还较少。由于汉字具有结构复杂、字符集巨大、字符间相似度高、字体风格变化多样等特点,其定位和识别较英文字符具有更高的难度。本文主要针对自然场景下的汉字定位和识别算法进行了研究。在最大稳定极值区域算法的基础上,模仿人的视觉机理提出了通过颜色聚类提取感兴趣区域的方法,同时进一步结合笔画宽度、角点特征以及其他基于汉字几何特征的启发式规则过滤虚警,最后采用深度卷积神经网络设计了一个针对汉字和背景的二分类器,以便进一步剔除和汉字具有较高相似度的背景区域,以此提高了场景图像中文字区域的定位准确率。在该深度卷积神经网络的设计和训练过程中,引入了多种创新性策略,如样本数据扩增、加入BN层、运用SGD和Adam两种优化器精调网络、改进网络结构和损失函数等,实现了利用有限的数据尽可能提高网络的分类效果,同时缩短训练时间的目的。在自建场景图像数据库中进行算法验证,结果表明本文提出的方法在场景图像中文本的召回率和准确率方面均高于现有方法。本文还针对汉字图像的识别技术进行了深入研究。建立了包含国标一级字库共计3755类,涵盖宋体、楷体、黑体等印刷体,以及行楷、黛玉体等近似手写体,共计22种字体的数据库。针对无遮挡的印刷及手写体汉字图像,提出了一种深度卷积神经网络模型。不考虑附加层,该网络主要由3个卷积层、2个池化层、1个全连接层和一个Softmax回归层组成。通过综合运用数据扩增、引入BN层、使用多种优化器等创新性的训练方法,有效提高了网络的泛化能力和识别效果,在自建数据库中对测试样本的识别率达到98.336%。