基于深度学习的自然场景下多方向中文文本识别

来源 :南昌大学 | 被引量 : 0次 | 上传用户:xys0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文本信息能为人们和计算机解读图像场景提供重要的帮助,对自然场景下的图像进行文本识别是当前最热门的研究领域之一。自然场景下的文本识别一般要经过检测图像中的文本区域和对文本区域进行文字识别这二个步骤。本文主要研究自然场景下的文本检测和文本识别算法,最后将检测和识别连接起来,实现了文本识别的端到端系统。针对自然场景下的图像文本检测,本文提出了基于改进Faster RCNN的多方向文本检测算法。通过在VGG16特征提取网络中加入SE模块,提升了网络性能。对于bounding box的回归,加入了文本块矩形的角度信息,可以检测多方向的文本。针对场景文本的多方向特点,在anchor选取上加入了角度变量生成更多的anchor。最后在公开的标准数据集上对本文提出的检测算法进行实验,通过对比一些现有的检测算法,表明本文的算法有较好的检测性能。本文还研究了中文文本的识别方法,提出了改进的STN-CRNN方法识别检测出的文本区域。STN-CRNN先将文本框图像进行文本矫正,再送入文本识别网络进行识别。文本识别网络对矫正后的文本图像进行特征提取,编码生成特征向量序列。然后在解码器模块引入注意力机制来对特征向量序列进行解码,得到文本识别的结果。
其他文献
垃圾渗滤液中含有许多难降解有机物、复杂的无机盐以及对微生物有毒性的重金属,如处理不当将会对土壤和地下水造成严重的环境污染。太湖南岸某垃圾填埋场渗滤液原有主体处理工艺为缺氧-好氧(A/O工艺),存在对COD和氨氮等去除效率低、运行效果不稳等问题,出水难以满足现行的《生活垃圾填埋场污染控制标准》(GB 16889-2008)排放标准。本论文通过对原有工艺存在问题的分析,结合目前垃圾渗滤液处理的成熟技术
目前绝大多数同步电机励磁系统的能量传输是采用金属导线连接的方式,该连接方式使该系统存在诸多缺陷,比如裸露的导线易造成安全问题,以及不能满足电动汽车、医疗等一些领域
自然灾害是全球性范围内面临的重大问题之一,对于沿海地区来说,台风灾害更是发生频率最高,影响最严重的自然灾害,同时,沿海地区是人口积聚、国民经济和社会发展的重要区域和
人脸表情是人与人之间交流信息的重要方式之一,对人脸表情进行识别可以更加全面的了解人的内心世界。因此,人脸表情识别成为了当前人脸识别领域的研究热点之一,受到国内外科
学位
我国不少学校的普通教室和阶梯教室存在着语言清晰度方面问题,而在规划初期经常忽略听闻环境对建筑的重要性。有高清晰度的听闻环境的可以确保学生从教师授课中获得更多有用
十八大之后,国家明确提出了“家庭农场”这个概念,自此,家庭农场的发展就受到社会各界的广泛关注,并逐渐发展成为社会主义新时期农业发展的重要环节,并体现了新农业发展的蓬勃动力和新型方向。这一经营主体作为新型农业经营的实体经济形式,随着经营规模和经营项目的多元化,为农民、农村、农业带来了新的发展机遇,但同时,由于存在着经营规模仍然较小、经营者缺乏有效抵押担保物带来的融资困难、靠天吃饭以及政策支持、资金投
众所周知,绿色经济已成为全球各国经济社会发展的新潮流。但与此同时,绿色技能人才的短缺却成为掣肘其快速发展中不可忽视的关键因素。为此,加快推进绿色职业教育的发展就显得尤为重要,其是实现可持续发展目标及促进绿色经济和社会发展的关键,是绿色技能人才最强有力的供应商。绿色职业教育的认知与发展的现状将对各国在新一轮绿色经济浪潮中占据优势位置发挥着不容小觑的作用。近年来,绿色职业教育在以联合国教科文组织职业技
受众个性化的穿着需求,为以服饰为主要内容的电视栏目的发展提供了新的机遇,成为了碎片化时间的最佳选择。丰富此类节目的内容,拓展文化内核也是其发展的重要目标之一。本文
欺骗作为一种复杂的社会行为,出现于幼儿时期,影响着幼儿社会性的发展。以往研究欺骗往往从行为层面或心理层面去考察,较少同时考察两个层面。研究发现欺骗与幼儿的自我控制以及父母教养方式有关,但是对父母教养方式和欺骗内在作用机制研究甚少。而且以往研究大多集中在大学生群体,缺乏对其他群体(如幼儿)的考察。因此,本研究立足于幼儿阶段,考察幼儿欺骗的发展特点以及与父母教养方式的内在作用机制。本研究从湖北省H市三