论文部分内容阅读
在计算机视觉技术兴盛的当下,人们越来越多的利用计算机,手机等智能硬件去自然中的文本进行检测和识别,但是在自然场景下去检测和识别这些文本并不是一件非常容易的事情,因此在自然场景下如何有效的去筛选对自己有用的信息就变得相关重要。近年来多种多样的文本检测与识别系统被应用到各行各业,人们对自然场景下的文本检测与识别系统的需求也愈演愈烈。例如,物业驻车系统,需要准确识别车牌号码得出归属地以及停车时间;盲人导航系统,需要准确的识别路牌,路边的广告牌等以方便盲人的出行以及汽车的无人驾驶系统等等。因此,自然场景下的文本检测与识别技术具有极大的研究意义与应用价值。本文主要的研究内容是对自然场景中的文本进行检测和识别,阐述了自然场景文本检测和识别的研究意义和背景,详细介绍了近年来自然场景文本检测与识别的状况。对主流的文本检测和识别算法存在的不足进行研究,提出了自己的解决方案,最后实现了一个自然场景文本检测和识别的系统。论文的研究内容如下:(1)在文本检测方面,针对EAST文本检测算法中,较大较长的文本检测不全或者出现误检的情况,提出一种基于非局部注意力机制改进的EAST算法。采用空洞卷积增大感受野,非局部注意力机制关注文本的特征信息从而提取有用的文本信息,去除无关信息。实验结果表明,本文方法与EAST算法相比,有效的改善了检测不全或者出现误检的情况。(2)在文本识别方面,针对已有的CTC和序列到序列的文本识别算法在不规则文本和中文文本上的准确率低等问题,提出一种基于连接二维CTC和注意力序列的文本识别模型。利用二维CTC自适应地关注文本的空间位置信息,同时排除背景噪声的影响。通过实验验证,本文方法对比CTC和序列到序列的模型,提高了对不规则文本和中文文本识别的准确率,同时加快了收敛速度。(3)在本文提出的自然场景文本检测和识别的算法的基础上,采用python作为开发语言,pycharm作为开发工具,Django作为Web框架,设计并实现了自然场景文本检测和识别系统。系统包括文本检测、文本识别等功能模块。