基于文本矫正和语义增强机制的自然场景文本识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:a_b_c_d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类最辉煌、最有影响力的创造之一。自然场景中的文字往往包含了丰富的信息,因此,自然场景文本识别技术在日常生活中具有广泛的应用,并逐渐成为当前计算机视觉领域中的研究热点。本文详细阐述了自然场景文本识别领域的发展历程以及该领域主流的识别算法,并深入剖析了当前场景文本识别中的难点,尤其是不规则文本以及低质量图像的识别问题。不规则文本往往具有透视变形和扭曲的文本形状,这使得字符呈二维排列分布,无法直接采用一维序列识别器进行预测。而低质量图像往往图像模糊、字符被遮挡或者具有复杂的背景干扰,这使得视觉信息包含大量噪声干扰,增加了文本的识别难度。本文围绕以上两个识别难点,探究并改进了现有的自然场景文本识别方法。主要研究工作和创新点如下:(1)针对不规则文本,本文提出了基于渐进文本矫正和注意力机制的场景文本识别算法。其中,渐进矫正机制针对三种级别的目标采用不同的矫正模块,逐渐消除文本的不规则形状,将呈二维分布的不规则文本矫正为呈一维分布的规则文本。将矫正机制与一维序列识别器结合构建完整的识别网络。整个识别网络以端到端、弱监督的方式进行训练,只需要文本图片及对应的字符串标注,无需任何额外的监督信息。实验表明,该矫正模块能够灵活、准确地矫正不规则的场景文本,提升识别器对不规则文本的鲁棒性。(2)针对低质量图片,本文提出了一种基于语义增强和Transformer结构的场景文本识别算法。其中,语义增强机制通过构建语义增强模块从整体视觉特征中提取全局语义信息,并用全局语义信息来初始化解码器以指导其准确解码。该方法深度融合了视觉信息和语义信息,利用语义信息来弥补视觉噪声干扰带来的性能降低。整个识别网络以端到端的方式进行训练。实验表明,全局语义信息能够有效指导解码器的解码过程,语义增强机制能够提高识别器对低质量文本图片的识别性能。
其他文献
物体六维姿态估计目的在于从图像识别特定目标物体,然后预测物体相对于模型坐标系的位置和朝向。估计出的物体姿态可以应用到很多实际任务中,比如机器人操作、自动驾驶,和增强现实。随着深度学习近些年来的快速发展,基于深度学习的方法已经主导了物体六维姿态估计领域。基于深度学习的物体六维姿态估计算法需要大量的带标注训练数据,然而,对数据的采集和标注是非常昂贵的,对于物体六维姿态估计来说更是如此,原因在于标注物体
学位
深度学习在为文字识别任务带来巨大的性能提升的同时,也需要消耗更多的计算与存储资源,特别是对于大类别文本行识别任务而言,需要更加复杂的模型来保证识别的性能,这一定程度上限制了文字识别技术的实际应用。本文针对大类别文本行识别模型的加速与压缩方法进行了研究,主要工作包括:(1)针对大类别文本行识别模型复杂度过高的问题,本文使用神经网络结构搜索(Neural Architecture Search,NAS
学位
本文以‘临猗梨枣’作为研究对象,通过田间调查,明确梨枣褐斑病发病规律及发病症状,并且对梨枣褐斑病果实进行品质测定,并对梨枣褐斑病果实病原菌进行分离,通过形态鉴定和分子鉴定相结合的方法,明确病原菌种类;测定了梨枣褐斑病果实与正常果实果皮与果肉内的10种营养元素,分析病果发生与元素消长之间的关系;通过将红枣专用肥和复合肥料分别与2种叶面肥以及杀菌剂进行组合搭配,比较各处理间对梨枣褐斑病防治效果及对果实
学位
时域有限差分(finite-difference time-domain,FDTD)法具有时域求解和简易直观的特点,但算法受Courant-Friedrichs-Lewy(CFL)稳定性条件限制。为了消除这种限制从而提高计算效率,国内外学者先后提出了无条件稳定FDTD算法和弱条件稳定FDTD算法,但这两类算法都牺牲了一定的计算精度。因此,国内外学者基于各种数学方法对提高算法精度做了大量的研究。本文
学位
采后苜蓿劣变是不可避免的问题,如何延缓苜蓿老化,保持苜蓿贮藏期间的品质是我们面临的重大问题之一。为了探究采后表观性状劣变规律,解析苜蓿老化机制,为选择最优的抗老化处理策略提供支撑,本研究分别以低温4℃保存(CK)、室内摊放(R)、UV-C照射(L)和高温高湿贮藏(TH)4种方式处理采后新鲜苜蓿和苜蓿干草,使用分光光度计、气相色谱质谱联用仪、色差仪等对苜蓿的感官指标、生理生化指标、品质成分和安全性进
学位
放牧是天然草地的主要利用方式之一,家畜的放牧行为直接或间接影响草地生态系统生态化学计量特征,目前关于不同放牧强度对其影响多侧重于植物、土壤及土壤微生物生物量其中一方面,而对同一生态系统中植物-土壤-土壤微生物生物量系统性影响的研究较少。基于此,本研究以晋北农牧交错带赖草草地为研究对象,依托于2016年建立的不同放牧强度试验平台,设置0、2.35、4.80和7.85羊单位·hm-2·生长季-14个放
学位
虚拟现实场景凭借其高沉浸感在教育、医疗、娱乐等方面得到广泛应用,其在传播信息、提供娱乐的同时,也会影响用户的情感状态。对虚拟现实场景进行实时情感分析,需要基于其连续的情感标签。因此,基于虚拟现实场景开展连续情感回归研究成为情感识别领域的研究热点。目前在虚拟现实场景情感回归研究中存在一些局限性:1、缺乏包含连续情感标签的虚拟现实情感数据集;2、采用SAM量表对情感进行人工标注耗时耗力,缺乏对视频情感
学位
为研究不同草地早熟禾(Poa pratensis)生理特性和氮利用效率对施氮量的响应差异,探明草地早熟禾最佳施氮策略,在大田试验条件下,采用11份国外草地早熟禾材料Blue ghost、Comet、Fielder、Geronimo、Green star、Heidi、Jackpot、Jackrabbit、Martha、My Holiday Lawn及Park和3份山西野生居群Hunyuan、Taih
学位
氮素是陆地生态系统生产力的重要限制因子,氮素不仅可提高草地生态系统的生产力,而且也会引发土壤阴阳离子的变化。因此,为了探索氮添加对土壤阴阳离子的影响,本试验以山西晋北半干旱赖草草地为对象,研究短期添加氮(0、1、2、4、8、16、24和32 g·m–2·a–1)对根际和非根际土壤阴阳离子的影响,并利用相关性分析和冗余分析探讨草地植被、土壤理化性质与土壤阴阳离子之间的关系。主要结果如下:1、短期氮添
学位
交通流预测作为智能交通系统(ITS)中最重要的组成部分之一,交通流预测近年来受到了广泛关注。它的目的是根据交通流的历史分布,预测一定时期内城市交通流分布的变化。准确、实时地预测交通流量,对规划车辆运行轨迹、缓解人群拥挤、为道路建设和交通疏导提供辅助参考具有指导作用。提取和利用空间特征和时间特征对实现有效交通流量预测具有关键作用。以往的基于深度学习的方法主要从交通流数据中提取空间特征和时间特征,但这
学位