【摘 要】
:
文字是人类最伟大的发明之一,它是人类语言的书面形式,具有文化继承性。随着互联网和多媒体技术的发展,海量的文本图像数据能够被人们获取,读取图像中的文本内容有助于理解整个图像场景,同时可以应用于车牌识别、自动驾驶等任务。不同于印刷体文本行识别,自然场景文本识别任务面临着诸如遮挡、低分辨率、透视变换、文本扭曲的难点。其中透视变换还将带来字符尺度多变的问题,加大了识别器的难度。为个性化的门店所设计的招牌往
【基金项目】
:
国家自然科学基金(项目编号:61936003); 广东省自然科学基金(项目编号:2017A030312006)
论文部分内容阅读
文字是人类最伟大的发明之一,它是人类语言的书面形式,具有文化继承性。随着互联网和多媒体技术的发展,海量的文本图像数据能够被人们获取,读取图像中的文本内容有助于理解整个图像场景,同时可以应用于车牌识别、自动驾驶等任务。不同于印刷体文本行识别,自然场景文本识别任务面临着诸如遮挡、低分辨率、透视变换、文本扭曲的难点。其中透视变换还将带来字符尺度多变的问题,加大了识别器的难度。为个性化的门店所设计的招牌往往是基于艺术字的曲线文本,大量引入了背景噪声和困难字体,其包含的文字较小较难识别。近几年来,很多学者的研究结果表明,基于深度学习的方法能够比较好地解决场景文本识别问题,因此本文用深度学习技术构建了两个对中文和英文场景都足够鲁棒的文本识别网络。本文的研究工作和贡献点主要包括:1、本文研究了近年来计算机视觉领域和场景文本识别领域的相关技术,对当前场景文本识别领域的难点进行了分析,并最终找到了背景噪声干扰以及多尺度字符的两个突破口。针对这两个突破口,本文构建了基于空间注意力机制的场景文本识别网络和基于多层级注意力机制的多尺度场景文本识别网络。这两个网络是以弱监督的方式进行训练的,只需要图片及其对应的标签,这大大减少了训练的成本;2、本文提出了基于细粒度空间注意力机制的场景文本识别网络。首先,该网络在不同尺度上提取特征并进行融合,以获得更加细粒度的特征表示。之后,本文利用空间注意力机制对背景噪声进行抑制,使得文本信息能够精细地从背景噪声中分离出来。解码器对于剥离了噪声的文本信息具有足够的识别能力,这大大提高了网络的识别精度;3、本文提出了基于多层级注意力机制的多尺度场景文本识别网络。该网络通过卷积神经网络固有的金字塔结构,保留了多个尺度上的图像特征。为了收集最细粒度的字符特征进行预测,本文构建了一个多层级的注意力机制解码器。首先,该解码器在多尺度特征中使用二维注意力机制提取出字符信息。之后,解码器通过一维注意力机制把每个尺度上提取的字符信息进行融合。最后,本文通过更鲁棒的特征提取器和恰当的数据增广方案,进一步提升了网络的识别精度和泛化能力。实验证明,本文所提出的识别网络能够细粒度的表征字符信息,大大提高了识别器对于多尺度文本的鲁棒性。
其他文献
微生物感染引发的疾病给人类生存造成了严重的威胁。抗生素滥用导致的耐药性问题的出现以及随之产生的严重后果,导致人们迫切需要新型抗生素用于遏制疾病传播、防治新型细菌感染。与此同时,深入研究抗菌物质的结构-性质-活性三者之间的关系是加快发展新型抗菌材料的关键。鉴于精油可帮助植物构筑复杂的防御体系应对致病菌所带来的威胁,因此,来源于自然的精油及其主要活性成分被认为是能够有效阻止细菌感染的策略之一,然而,易
金属卤化物钙钛矿具有带隙可调、色纯度高、载流子迁移率高、光致发光量子产率高等优异的光电性能,引起了学术界的广泛关注。空穴传输层和钙钛矿层的界面性能是影响钙钛矿电致发光器件(Perovskite Light Emitting Diode,Pe LED)性能的关键。本文提出了在空穴传输层PEDOT:PSS和钙钛矿层界面处制备超薄绝缘插入层的新型Pe LED器件结构,首先通过仿真和实验研究了该结构对Pe
模糊理论是刻画不确定性的重要工具,与其相关的投资组合模型已成为当前研究的热点。在模糊理论中,用集合来描述隶属度的犹豫模糊集是近年来的重要成果,但以它为基础的投资组合模型的研究仍处在初始阶段。因此,本文基于犹豫模糊集,概率犹豫模糊集和双犹豫模糊集这三类犹豫模糊理论开展了投资组合模型的研究,主要内容为:(1)在目前的基于前景理论的犹豫模糊投资组合模型中,价值函数的参照点为客观计算所得的期望犹豫模糊元素
水下无线传感网络被广泛运用于水下环境监测和水下探测等领域,水下无线通信技术作为其关键技术起着重要作用。水声通信是目前发展最为成熟的水下无线通信技术,具有通信距离远、角度大、可靠性高等优势,但是存在低传输速率和高传输延迟等问题。水下可见光通信相比于水声通信来说能够实现更高的传输速率和更低的传输延迟,且系统的体积和能耗更小,但是由于可见光在水下的衰减较严重且要求视距传输,导致其通信距离较短,对通信角度
电机是目前应用最广泛的动力设备,电机出厂质量检测是保证电机乃至整个机械系统平稳运行的重要一环。传统的电机检测都是依靠人工听音的方式,辨识电机是否存在故障,检测效率低、一致性差,检测结果受人为主观因素影响大,由于没有统一的电机客观评价标准和合理的诊断测试方法,一直难以实现自动化检测。根据以上问题,本文以电机生产厂家产线批量制造的微型直流电机为研究对象,针对电机出厂自动检测的工程实际问题,采集电机声音
量子群是李代数理论的延伸和推广,它与数学以及物理学的众多分支有着紧密的联系,所以自其诞生以来,一直都是代数学研究的热点.本学位论文主要研究量子坐标代数的RTT实现,低秩有限型和仿射型量子包络代数的结构等问题.我们首先考虑了基于RTT实现的量子超代数的坐标超代数,一个量子超代数可以通过一个R-矩阵以及相应的RTT关系给出,我们在张量积空间EndV(?)EndV中构造合适的R-矩阵,借助该R-矩阵给出
随着物联网时代的到来,窄带物联网(Narrow Band Internet of Things,NB-IoT)成为了万物互联网络的一个重要分支,具有低功耗、低成本、广覆盖、可大量连接等优势。小区搜索是指用户设备开机后首先选择合适的小区接入网络的步骤,在整个通信过程中十分重要。为了能够充分利用信道的带宽,现代通信系统常采用OFDM(Orthogonal Frequency Division Mult
IPCC于2014年第五次报告指出人类活动是全球气候变暖的主要原因,温室气体大量排放带来高温胁迫、风暴和极端降水、洪水灾害、水土流失等一系列问题。当下粤港澳大湾区快速的城市化建设,不可避免会对生态环境造成负面影响,进而威胁粤港澳大湾区的生态安全与经济发展。为了避免未来更为昂贵的解决办法,本文基于InVEST和CA-Markov模型,选取生境质量、碳储存、水源供给、土壤保持四个指标,分析粤港澳大湾区
糖尿病是一种以高血糖为特征的慢性代谢疾病,严重影响人类身心健康。近年来,对人体血糖具有良好调控作用的二肽基肽酶Ⅳ(DPP-Ⅳ)抑制肽备受关注。酵母中蛋白质含量丰富,是一种极具开发价值的微生物蛋白资源。本文应用枯草芽孢杆菌发酵制备的酶制剂酶解食用酵母后,实现了DPP-Ⅳ抑制活性多肽的分离富集和筛选鉴定,采用酶抑制动力学和分子对接探究了多肽与DPP-Ⅳ之间的作用机制,并分析了DPP-Ⅳ抑制肽的稳定性及
随着人口老龄化进程加快,对更高质量的医疗服务需求激增,智慧医疗的发展受到了社会的极大关注。无线体域网(Wireless Body Area Network,WBAN)作为智慧医疗的一项关键技术,可实时采集人体的生理指标数据,从而实现远程医疗监护及诊断。然而,由于传感器节点多数采取植入人体的方式,不便于充电,这也使得提高能效成为WBAN的关键解决问题。将传输功率控制、中继协作传输等提高能效的关键技术