复杂场景不规则文本识别算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:talisa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别文本图像是计算机视觉领域的一个重要研究课题。随着深度学习理论技术的发展,对于背景简单且规则的场景文本,人们已提出比较成熟的基于深度神经网络的解决方案,其结果明显优于基于手工特征的解决方案。伴随互联网规模和多媒体信息的不断发展和膨胀,文字也出现在各类复杂场景中,例如,街景、商品包装、拍照表单、交通引导等。这些场景背景复杂,文字多样,图像质量低,因此,研究者逐渐开始关注现实生活中经常出现且理解难度较大的复杂场景下不规则文本识别任务。现有自然场景文本识别技术多是基于序列模式的深度卷积网络和循环神经网络结合的编码解码模型。虽然这一技术取得了较好的结果,但是在解决复杂场景不规则的文本上仍然存在如下问题:第一,这种基于序列到序列的场景文本识别方法,虽将上下文建模视为其实现更好性能的关键组成部分,但是,他们通常只考虑在单一维度上整体或单尺度局部序列上下文依赖关系。事实上,场景文本或序列上下文可以在二维(2-D)空间中较为自由的样式多尺度跨越,而不仅局限于一维方向单一尺度。各种尺度的上下文感知将有助于复杂场景文本识别,特别对不规则文本的识别。第二,场景文本识别中的关键挑战是如何适当地捕获和利用丰富的上下文信息来消除场景文本解释的歧义。卷积神经网络(CNN,Convolutional Neural Network)和递归神经网络(RNN,Recurrent Neural Network)的最新发展带来了识别器上下文建模能力的提高。但是,这些方法与实际视觉神经元所涉及的上下文调制过程之间仍然存在很大差距,因为这些方法在特征提取阶段很难自适应地获得从局部到全局的多尺度上下文信息。1.提出基于二维多尺度感知上下文的场景文本识别算法。在此算法中,我们以二维方式考虑上下文,同时考虑从局部到全局的全尺度的上下文推理。为此,我们先构建一个新的二维多尺度感知上下文(TDMSPC,Two-Dimensional Multi-Scale Perceptive Context)模块,该模块沿水平和垂直方向进行多尺度上下文学习,然后将多尺度上下文信息合并。这可以生成与形状和字符排列相适应的特征图,以解决场景文本识别中不规则文本难题。在模块设计的基础上,我们将此模块插入到现有基于序列的框架中,以替换其集中上下文学习机制。此外,通过使用TDMSPC模块作为上下文强化编码的基本功能块重新构建新的识别编码网络,并采用基于注意力机制的LSTM作为解码器,构建了一个全新的场景文本识别系统TDMSPC-Net。在基准数据集上的实验表明,TDMSPC模块可以大大提高现有基于序列的场景文本识别系统性能。提出的全新识别系统TDMSPC-Net在所有基准数据集上都取得了到最佳性能。2.提出环境适应性上下文调制算法。针对当前不规则场景文本需要依赖更强的上下信息提取,而当前上下文信息建模和人类视觉神经元的上下文调制机制之间存在很大差距。因此,受启发于神经科学的上下文调制机理,论文尝试在场景文本识别网络设计中实现视觉神经元的上下文调制机制。具体地,设计了一个轻量级尺度感知上下文调制(SACM,Scale-Aware Context Modulation)模块,该模块由两个主要部分组成。第一部分是类递归扩张式卷积单元,使用扩张卷积捕获不同尺度的上下文信息,并且使用类似递归结构的网络进行多层连接设计,以实现在多尺度上下文中更好的语义一致性对齐。第二部分是基于通道的尺度注意力单元,利用通道注意力机制进行上下文尺度选择,以实现输入特征图按点的上下文调制。进一步将SACM模块插入成熟多语义阶段的卷积神经网络中,构建了具有上下文调制编码器和2D注意力增强的RNN解码器的场景文本识别系统。标准数据集上的实验表明,所提出的方法在常规和不规则文本方面均取得最佳识别性能。除此之外,利用提出的模块进行了轻量化复杂场景不规则文本识别网络的设计探索,取得相比同等规模识别网络明显的性能优势,为应用落地或者移植到移动终端奠定了算法基础。
其他文献
传统的视觉SLAM(Simultaneous localization and mapping)系统大多数只适用于小范围、静态的环境中,近年来,一些研究者也逐渐将研究方向投入到将SLAM系统与语义分割系统结合
X射线断层成像(X-ray computed tomography,XCT)技术,因其能无损地重建被测物体内部结构的能力,被广泛地应用于医学诊断、工业检测和材料分析等领域.在实践中,由于实验设备、测
块坐标下降法(BCD)循环使用不同的块坐标方向求解问题的最优解.由于此类算法具有迭代成本低、内存需求小、易于并行化等特点,在大规模数值优化中得到了广泛应用.给定一组来自多
应用传统方法检测羊肉新鲜度不仅耗时费力,对样本造成破坏,还存在一定的主观干扰因素,不能准确判定羊肉的新鲜状况。因此,应当寻求一种快速、无损且准确度较高的检测手段以推
在“互联网+”时代,数据正以超凡的速度呈现爆炸式增长,如何从中获取到有价值的信息是当前知识发现研究中的关键问题。多尺度信息系统是一个因属性在不同尺度下进行测量而具
孤独症谱系障碍是一种广泛性神经失调导致的发育障碍,常伴随有三大症状:语言障碍、社交障碍与重复刻板的兴趣行为。到目前为止孤独症发病机制尚不明确,无法治愈且会伴随患者一生。随着孤独症儿童发病率不断上升,孤独症越来越得到了社会的高度重视。本文旨在研究孤独症儿童脑功能差异,探究孤独症儿童对经颅直流电刺激干预手段的敏感脑区,以期更好的发挥经颅直流电刺激对孤独症儿童脑功能的改善作用。首先,本文以25名正常儿童
教会机器理解自然语言形式的文本,是当下人工智能的一大难以捉摸并且长远的挑战。本文致力于研究自然语言处理中的两大任务:自动问答和问题生成。其中自动问答是指在有了一定
稻谷是一种营养价值高,能够为人体提供大量能量的粮食作物之一。世界上有50%左右的人口以稻谷为主要食物来源。在中国,稻谷的产量占到世界总产量的67%。水分、淀粉和蛋白质是
目的通过本课题研究脉泻剂“甘露养心丸”治疗慢性心力衰竭模型大鼠,观察脉泻剂“甘露养心丸”对BNP与心功能+dp/dtmax,-dp/dtmax,m LVSP,m LVDP的影响,探讨脉泻剂“甘露养心丸”的机制机理;为脉泻剂“甘露养心丸”提供科学依据。方法选取健康SD大鼠84只(体重180-220g),随机分为甘露养心丸高剂量组、甘露养心丸中剂量组、甘露养心丸低剂量组、西药对照组、模型组、空白组,共
转录因子c-Myb是造血过程中非常重要的调节因子,在细胞的增殖、分化和凋亡等过程中发挥着重要的作用。c-myb在造血祖细胞中表达量很高,随着细胞的分化,它的表达量会降低甚至会不表达。近期关于c-myb的异常表达会引发各种癌症,如白血病,乳腺癌,结肠癌的报道引起了人们的高度重视。尽管有很多报道阐述了关于c-myb表达调控机制的研究,但是由于c-myb缺乏典型的启动子并且有多种因子参与其中,因此了解c