论文部分内容阅读
文字承载着各个国家的文化与文明,也是人类交流的载体。如今随着多媒体时代的发展,文字的表现形式也愈加丰富。中国的汉字历史悠久、字体形式多变,演变至今不仅具备文学研究意义,同时为计算机视觉领域提供丰富的研究课题。尤其在自然场景图片中,文本的内容拥有丰富的语义信息,研究人员可以通过对这些文字的阅读和理解提取到相关重要的信息,用于如文献检索、城市监控、无人驾驶、医学治疗等工业应用。目前传统的光学字符识别(Optical Character Recognition,OCR)技术在文档分析中已有广泛的应用且识别效果显著。与传统印刷体不同,自然场景中的文字不仅字体样式多变,背景也较为复杂,然而目前的算法多针对英文,难以应对场景汉字的复杂性。场景汉字的检测识别仍是一项具有挑战的研究工作,因此本文针对场景汉字的检测与识别任务做了如下工作:1.本文针对现有检测算法在中文应用上的不足,提出一种基于多尺度特征与多目标函数的场景文本检测算法。同时适用于文本行和字符的检测,和现有方法相比具有多方面的优势。具体的网络设计如下:(1)多尺度特征提取网络。借鉴语义分割的思想,在调整后的骨干网络Res Net-50后接入Dense ASPP(Dense Atrous Spatial Pyramid Pooling)模块增强特征表达,增加检测网络的感受野,提升检测网络处理多尺度文本的能力。(2)提出基于多目标函数的置信度集成。文本框的置信度分数将由两个掩膜输出分支共同决定,分支一使用二分类的交叉熵损失进行监督训练,分支二则采用医学图像分割中的dice coefficient损失。针对网络输出的文本框,将根据两个分割掩膜的得分情况按比例判定该文本框最终的置信度分数。该方法通过两个损失函数的互相矫正学习,能够明显改善检测框质量与置信度分数之间存在的偏差问题。(3)本文采用在线难例挖掘(Online Hard Example Mining,OHEM)算法平衡正负样本之间的比例并对较难的背景进行信息挖掘。保证正负样本比例大于等于1:3,减轻了训练难度的同时增加了定位的准确性。2.本文提出一种基于深度度量学习的场景汉字字符识别网络模型。在真实场景中汉字使用率分布不均的情况下,提出使用字符模板为参照物进行识别,提高场景汉字字符的识别准确率。首先将两张字符图片进行通道合并,使用基础骨干网络捕捉融合后的特征信息,再通过对不同层级输出的卷积特征进行信息融合,最后使用一个神经元将输出值控制在[0,1]之间。该模型通过自主学习两张字符图片之间的相似度,与普通的分类网络相比,该方法拥有更高的识别准确率和较好的泛化识别性能。为提高识别的速度,本文测试过程采用粗分类的方式减少待匹配模板的数量,该方法有效的减少了待测字符图片与模板进行匹配识别的次数和测试时间。3.本文提出字符级文字检测与识别级联算法进行场景汉字文本行识别。通过字符检测网络和字符识别网络的简单结合便能够对文本行进行识别,无需额外的预处理操作。首先针对场景文本行图片,调整本文基于多尺度特征与多目标函数的场景文本检测算法得到字符坐标,然后使用本文基于深度度量学习的场景汉字字符识别算法进行字符识别,最后根据一定的规则组合成文本行识别结果。该方法在处理过程中无需数据扩增,在几种中文文本数据集上都表现出了优秀的识别率。总结下来,本文借鉴语义分割和医学图像分割的思想,提出了一种基于多尺度特征与多目标函数的场景文本检测算法,并以文本行检测与字符检测两种形式,在多种不同的英文和中文数据集上进行了实验比较,大幅度超越了其他检测算法。提出了基于深度度量学习的场景汉字字符识别网络模型,并使用粗分类加速测试的过程,在不同的中文场景字符数据库上取得了显著的识别效果。最后根据本文提出的检测算法与识别算法,本文提出了一种字符级文字检测与识别级联算法进行场景汉字文本行识别,并通过相关数据集验证了该算法的识别性能。