自然环境下的文本检测算法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:yakataxxxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类交流信息的工具,是简单的视觉图案再现口语所表达的形式。随着深度学习技术的不断发展,自然场景文本检测技术已经成为计算机视觉与模型识别等领域的重要研究课题之一。本文针对自然场景下的文本检测问题进行了研究,不同于传统的光学字符识别技术所识别的文本图片,自然场景图像中的文本在外观上,具有字符大小不统一、文本方向不确定、背景复杂等特点,使得检测难度较大,也为后续的识别过程带来不必要的麻烦。针对自然场景文本检测问题,世界各国的学者都提出了优秀的解决方法。但是这些方法或是计算简单准确性较差,或是有着复杂的参数计算,而且对不同的数据集泛化性较差,无法兼顾鲁棒性和准确性。
  基于上述问题,本文以深度学习算法以及传统的算法为基础对自然场景下的文本检测任务进行了深入的理解和研究,本文主要做了以下工作:
  1.数据的预处理与迁移学习。自然场景文本图像是场景文本检测技术兴起的源头,因为目前存在的公开数据集都具备不同的特点,所以本文为了使检测算法具有更好的效果,对所使用的数据集使用图像处理方向的算法,对图像进行尺度归一化以及图像增强处理。为了使后续的检测模型训练时能够更快的收敛,本文截取MSRA-TD500数据集中的真实标签圈定的文本区域作为正样本,再对背景区域进行随机切割作为负样本,以此来训练以Resnet-34模型对背景与文本进行分类,其中预训练模型的主干网络作为后续检测模型的特征提取网络。
  2.传统检测算法与深度学习方法相结合的场景文本检测算法。本文通过对场景文本图像数据集中文本区域的对比分析,发现人们为了表述某一思想而书写的文字大多是相同的颜色。于是通过研究,在最大稳定极值区域(MSER)算法的基础上,构建了基于距离度量的区域灰度融合算法。使用该算法来去除小片背景区域以及将单独的字符区域进行合并以此来获取候选区域。为了区分候选区域是否为文本区域,以及对包含多个文本行的候选区域进行边框重定位,同时为了均衡文本检测算法的效率与准确性,本文将YOLO(YouOnly LookOnce)目标检测算法进行改进,将候选区域作为单独的图像数据对改进之后的YOLO算法进行训练,以此来去除背景区域以及对包含多个文本行的区域进行文本框的重定位。
  3.在多个公开数据集上与不同的经典文本检测算法进行比较。通过算法的构建、实验与研究,在ICDAR2013、ICDAR2015、阿里天池ICPR2018数据集上进行实验,并与多个经典文本检测算法的在相同数据集上的结果进行对比,表明了本文算法在某类数据集上有着较好的鲁棒性,在不同的数据集上有着良好的泛化性,这也对后续的场景文本检测算法研究提供了一种不同的思路,在后续场景文本检测技术的研究和发展中,有着一定的参考价值。
其他文献
路径规划作为移动机器人实现自主化和智能化的关键之一,成为当前火热的研究子领域。本课题针对高稠密这种特殊与复杂的移动机器人路径规划进行了深入的研究,主要从全局规划和局部规划两个层面出发,并通过双层路径规划策略使两者协调统一,实现了移动机器人高效率的全局路径规划和高可靠性的局部路径规划。最终以仿真平台MATLAB完成了优化算法的仿真验证,以Turtlebot2机器人进行了双层路径规划算法的实验验证。本
在现代智能化作战的大背景下,战场的信息感知能力对决定战争的胜负起着关键的作用。现有的侦察手段以人为主,深入敌方侦察对我方人员的生命会产生极大的威胁,所以在电子设备上采用智能的目标识别算法显得尤为必要。传统目标识别方法在陆战场环境中存在着识别准确不高,实时性不佳的问题。深度学习作为一种新兴的技术具有很强的鲁棒性,相比于传统模式识别方法,在对目标检测的特征提取方面可以有效减少由于背景环境复杂、目标快速
学位
近年来,新的战争背景对大口径火炮的稳定性提出了更高要求,自动装填系统在提高单位时间火力密度的同时,复杂的机械结构和高使用率也使其成为火炮故障频发的子系统之一,其中链轮作为弹仓内部的重要部件,对于弹药运输及装填过程具有重要作用,极端恶劣的实战环境造成链轮组件的故障率居高不下,直接影响到火炮的性能,因此对火炮弹仓链轮故障诊断系统的研究具有重要意义。  本文针对弹仓链轮的各类故障,研制一套弹仓链轮故障诊
近些年来,随着分数阶微积分理论的飞速发展,以及在实际的物理系统中越来越多的应用,分数阶系统的相关研究也成为了一个较为热门的方向。分数阶微积分作为整数阶微积分的推广,对一些复杂系统可以有更简洁的描述,并且分数阶微积分的引入可以增加控制器设计的自由度,改善控制品质。然而,在系统实际运行过程中,环境的变化、系统器件的磨损等原因会使得所建系统模型不再精确,也可能降低系统的可控性甚至导致系统处于不稳定状态。
火工品是内部装有火药的一次性使用装置,当其受到外界刺激时,会引发内部火药发生燃烧或者爆炸,从而输出能量完成起爆工作。作为先进军事武器系统的第一能源产品,火工品的安全性、可靠性和先进性与武器弹药系统的安全性、可靠性和先进性紧密相接。火工品性能由火工品参数进行表征,针对火工品参数对外界环境敏感,导致对于参数的获取及测量准确性变差这一问题,本文采用Volterra模型与在线参数辨识算法相结合的思想对火工
学位
近年来,人体行为识别技术广泛应用于视频监控、智能医疗教育、无人驾驶、日常行为分析等方面,在安防领域扮演着举足轻重的角色。军事上,行为识别技术已应用于军事化研究基地、国防边境、哨所等戒备森严的军事重地,通过检测区域内可疑行为,为环境感知及决策者远程决策做出贡献。  尽管基于深度学习的人体行为识别技术已取得了很多成果,但仍存在基于RGB视频的模型严重依赖物体和场景、行为特征表达不够合理等问题。针对上述
随着化石燃料的日益消耗和环境污染的加重,能源结构逐渐发生改变,新能源所占的比重逐年上升。并网逆变器是新能源电力系统的重要环节,作为新能源电力的并网接口,其地位和作用十分显著。并网逆变器工作稳定性除受自身因素作用外,还受来自电网干扰的影响,电网电压的平衡状况、谐波含量会对逆变器输出波形质量造成影响。如何使并网逆变器在电网情况较为恶劣的条件下,仍能安全高效的运行,成为现阶段研究热点。本文以三相并网逆变
如今,全球的能源需求和发展已逐步向可再生能源转型,并将成为最终目标。因此,风能作为清洁可再生能源的重要代表,风电产业得到了飞速发展,变桨距风机已经成为风电机组中主力机型。变桨系统通过改变风力机叶片的桨距角,提升风能的利用率和输出功率。由于风机变桨系统的执行器故障发生频繁,故而,对变桨系统执行器故障诊断和容错控制的研究对提升风机运行的可靠性和降低发电成本有着重要意义。  本文以风电机组变桨系统为主要
学位
火灾作为破坏性非常大的灾害之一,每年都会对经济和环境造成巨大损失。因此,及早发现火灾并进行预警对火灾防治具有至关重要的作用。目前火灾识别的方法已经从传统传感器探测演变为图像型火灾的研究,但仍存在特征选取盲目和识别率低的问题。针对此问题,本文重点研究基于深度学习的火灾识别方法,主要研究内容与创新点归纳为以下几个方面:  (1)深度神经网络模型的相关研究  对全连接神经网络和卷积神经网络的结构和算法进
学位
脑卒中是一种急性脑血管疾病,是由于脑血管破裂而引起脑组织损伤,目前已成为我国成年人致残的首要原因,近些年来发病率一直在逐年递增。一半以上的脑卒中患者会有上肢偏瘫的后遗症,上肢无法自主活动,严重影响日常生活。现阶段,长期的康复训练是治疗脑卒中患者上肢偏瘫最好的方式,临床上对患者训练的评估主要依靠医师的个人经验。在没有康复治疗师现场指导的情况下,使用轻量、高效、可靠的计算机系统对患者上肢康复训练进行评
学位