【摘 要】
:
场景文字的检测和识别是计算机视觉领域中的重要研究课题之一,场景文字中包含了准确的语义信息,因此该研究课题在场景理解、文档分析领域有着重要的应用价值和学术意义。特别是非受控场景下的场景文字检测和识别,该技术有着广泛的应用场景,例如车牌识别、自动驾驶、发票识别、盲人阅读、金融票据识别等,因此受到学术界和工业界的广泛关注。对任意形态的场景文字的检测和识别任务仍然是一个具有挑战性的问题。本文对基于深度学习
论文部分内容阅读
场景文字的检测和识别是计算机视觉领域中的重要研究课题之一,场景文字中包含了准确的语义信息,因此该研究课题在场景理解、文档分析领域有着重要的应用价值和学术意义。特别是非受控场景下的场景文字检测和识别,该技术有着广泛的应用场景,例如车牌识别、自动驾驶、发票识别、盲人阅读、金融票据识别等,因此受到学术界和工业界的广泛关注。对任意形态的场景文字的检测和识别任务仍然是一个具有挑战性的问题。本文对基于深度学习的任意形态的场景文字的检测和识别方法进行了探索和研究。针对任意形态的场景文字检测问题,本文提出一种基于图像上下文信息的多任务学习的单阶段任意形态文字检测算法。该算法使用多任务学习方法的同时学习文字区域的多种几何特征,结合了高层的检测信息和底层的像素信息,实现了对任意形态的场景文字的检测。在该算法中,本文提出了一种基于图像上下文注意机制的特征增强机制,学习了图像特征的非局部信息,使主体网络学习到的特征摆脱了感受野的限制,进而缓解了长文字区域分割片段化问题;提出一种Pixel2Quad机制,有效结合高层语义信息和底层像素信息,实现较为鲁棒的文字实例分割方法,有效地提升了常见文字实例分割的准确性;提出了一种高效的文字多边形表达恢复方法,解决了收缩的文字区域向外扩展的不确定性问题,可以高效地从文字实例中恢复出上下对称的多边形表达,对于后端的识别系统较为友好。该方法在诸多公开数据集上取得了与同期公开算法可比或者更好的检测精度,且相比于其他的基于分割的场景文字检测方法,该方法是在1/4尺度上进行多任务学习,因此计算量较小,运行速度优势明显,远超同期公开的算法。针对任意形态的场景文字的识别问题,本文提出了一种基于中心点采样的任意形态场景文本端到端识别算法,该算法同时学习了场景文字的语义分割图和字符分类信息,实现了对任意形态场景文本的并行检测和识别任务,并使用了基于图神经网络的识别优化模块对识别准确性进行了提升。在该算法中,本文提出了一种基于CTC的字符分类信息监督方法,该方法可以学习到每个像素点对应的字符分类信息,且不需要字符级别的标注;考虑到阅读顺序对文字识别性能的影响,提出了一种文字阅读顺序的恢复方法,该方法定义了一种表示文字区域的阅读顺序的属性,并通过对该属性的学习和预测,实现了文字区域阅读顺序的恢复,提升了整体的识别性能;提出了一种基于图神经网络的文字实例识别的优化方法,对局部的信息进行聚合和推理,捕捉同一个文字识别序列中长距离的相关性,进而对识别结果进行优化。该方法在诸多公开数据集上取得可比或者更好的识别精度。同时,该算法可学习参数量较少,没有非极大抑制或者特征抠取等操作,运行速度较快,在实现端到端识别系统在边缘智能设备上部署方面有较大潜力。
其他文献
锂金属负极以其超高的理论能量密度成为了新一代高比能电池研发的重要课题。传统锂二次电池使用液态有机电解液,若采用金属锂负极,易形成锂枝晶导致电池内部短路。同时,有机电解液具有易分解、易挥发、易燃和易泄露的特点,存在着严重的安全隐患。采用无机固体电解质替代有机电解液能从根本解决这些问题,获得高安全性和高比能量密度的锂金属电池。此外,固态锂金属电池还可以实现与高电压正极的匹配,或进一步结合锂氧气、锂硫电
本文从成本与收益的角度分析了公司治理水平如何影响公司的税收筹划程度,以及在不同的公司产权性质下,公司治理水平又将会对公司税收筹划程度有着怎样的影响。公司治理的完善能够使得股东加强对管理层的监督,加大管理层利用税收筹划等手段实现自己利益最大化的成本,公司财务透明性会提高,更有利于外部治理机构的监督,因此公司治理水平会对管理层的税收筹划行为起到一定的抑制作用,进一步地又对不同产权性质公司背景下公司治理
环五肽Galaxamide和吲哚类生物碱Caulerpin是本课题组分别从Galaxaura filamentosa与Caulerpa sp.海藻中分离获得的次生代谢产物,初步研究发现,它们对多种肿瘤细胞株都展现出较强的体外抑制作用。本课题组前期已经对两种化合物进行规模化制备,为进一步研究提供了药源。本论文对Galaxamide与Caulerpin进行抗肿瘤活性研究与成药性早期评价,两种化合物有望
早在古希腊和古中国,已经有面相的研究记录,人脸包含重要信息,某些疾病也在面部表现特征。本文对OSA面容的特征进行研究,并从计算机图像学的角度出发,为医学类的图像研究提供新的路径方案。在收集到样本后,根据金标准将图像的类别标注分为健康、轻度、中度、重度四类。研究路线主要分为三个部分:第三章用平均脸分析OSA面容特征,直观对比图像。讨论OSA面容图像是否具有肉眼可见的特征。核心技术为平均脸算法,平均脸
民族地区乡村治理现代化是国家治理体系和治理能力现代化的重要组成部分,也是实现乡村振兴战略的重要基础,对2020年打赢民族地区乡村脱贫攻坚战具有重要意义。因此,本文通过文献分析方法、比较分析方法等研究方法对A村进行实地调研和分析,把民族地区乡村治理多元主体协同机制作为研究对象。首先,梳理当前国内外关于民族地区乡村治理研究的文献综述,简述了本文的写作框架。其次,对本文的核心概念的界定,同时分析理论运用
社区是城市的基本组成单位,承载着建设城市基层政权和发展城市基层民主制度的双重任务。这两种性质不同的建设和发展任务并非通过严格的正式制度来施行,而是蕴含在柔性的精细化社区治理结构的分化与重组过程中。在历史上,地方政府及其派出机关一直是我国城市社区治理的主要领导者和推动者,但改革开放后,社会主义市场经济的发展使我国资源配置方式与社会管理角色逐渐向多元化发展,城市社区治理中的粗放式理念和一元化管理已不适
近年来,港口可持续发展已经引起了学术界、港口管理部门和港航企业的高度关注。在港口的建设发展中,我们过去过于重视港口的吞吐量等经济指标,不可否认的是,这在一定程度上促成了我国进出口贸易量的高速发展,同时带动了我国国民经济的飞速提升。然而在时代进步的背景下,世界港口纷纷转型升级,港口的快速发展与可持续理念的矛盾日渐严峻,这种忽视环境问题只追求经济指标的粗犷式发展方式,显然已经无法在今后的竞争中取胜,这
近年来,全民健身战略在我国加快实施,兼具竞技性和广泛参与性的马拉松赛事也随之受到热捧。武汉马拉松于2016年4月首次举办,到2019年,已连续成功举办四届比赛。赛事于2017年加入“中国马拉松大满贯”,于2018获得“中国田径协会金牌赛事”荣誉称号,并于2019荣膺“国际田径联合会铜标赛事”称号,武汉马拉松以其优质的志愿服务和良好的参赛体验深受国内外跑步爱好者的喜爱。武汉马拉松包含马拉松、半程马拉
医药制造业与人民生活息息相关,是中国制造2025和战略新兴产业的重点领域,也是健康中国建设的重要保障。医药制造业受国家政策影响,近年来医药卫生体制改革全面深化,政府实行了一系列旨在达成惠民医疗、降价控费等目的的政策,如近年来实施的两票制、“4+7”带量采购政策等,药品价格大幅度降低,药品利润空间缩小。同时,一系列的医改政策将加速行业整合,逐步形成优胜劣汰的局势。许多竞争力不足的中小型企业未来会被并
矿井提升系统作为煤炭生产活动重要组成部分,随着开采深度不断增加,多绳摩擦提升系统的安全运行,特别是提升钢丝绳的安全运行受到广泛关注。多绳摩擦提升系统的钢丝绳由摩擦轮牵引,绕经天轮与提升容器连接,并沿井筒轨道上下运行。提升钢丝绳的纵向振动引起钢丝绳张力变化,同时在张力变化以及天轮摆动等激励下,易引发摩擦轮与天轮间的钢丝绳(简称弦绳)的剧烈晃动。本文以多绳摩擦提升系统钢丝绳为研究对象,采用理论建模、信