基于深度学习的字符级场景汉字检测与识别问题研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:a610735932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字承载着各个国家的文化与文明,也是人类交流的载体。如今随着多媒体时代的发展,文字的表现形式也愈加丰富。中国的汉字历史悠久、字体形式多变,演变至今不仅具备文学研究意义,同时为计算机视觉领域提供丰富的研究课题。尤其在自然场景图片中,文本的内容拥有丰富的语义信息,研究人员可以通过对这些文字的阅读和理解提取到相关重要的信息,用于如文献检索、城市监控、无人驾驶、医学治疗等工业应用。目前传统的光学字符识别(Optical Character Recognition,OCR)技术在文档分析中已有广泛的应用且识别效果显著。与传统印刷体不同,自然场景中的文字不仅字体样式多变,背景也较为复杂,然而目前的算法多针对英文,难以应对场景汉字的复杂性。场景汉字的检测识别仍是一项具有挑战的研究工作,因此本文针对场景汉字的检测与识别任务做了如下工作:1.本文针对现有检测算法在中文应用上的不足,提出一种基于多尺度特征与多目标函数的场景文本检测算法。同时适用于文本行和字符的检测,和现有方法相比具有多方面的优势。具体的网络设计如下:(1)多尺度特征提取网络。借鉴语义分割的思想,在调整后的骨干网络Res Net-50后接入Dense ASPP(Dense Atrous Spatial Pyramid Pooling)模块增强特征表达,增加检测网络的感受野,提升检测网络处理多尺度文本的能力。(2)提出基于多目标函数的置信度集成。文本框的置信度分数将由两个掩膜输出分支共同决定,分支一使用二分类的交叉熵损失进行监督训练,分支二则采用医学图像分割中的dice coefficient损失。针对网络输出的文本框,将根据两个分割掩膜的得分情况按比例判定该文本框最终的置信度分数。该方法通过两个损失函数的互相矫正学习,能够明显改善检测框质量与置信度分数之间存在的偏差问题。(3)本文采用在线难例挖掘(Online Hard Example Mining,OHEM)算法平衡正负样本之间的比例并对较难的背景进行信息挖掘。保证正负样本比例大于等于1:3,减轻了训练难度的同时增加了定位的准确性。2.本文提出一种基于深度度量学习的场景汉字字符识别网络模型。在真实场景中汉字使用率分布不均的情况下,提出使用字符模板为参照物进行识别,提高场景汉字字符的识别准确率。首先将两张字符图片进行通道合并,使用基础骨干网络捕捉融合后的特征信息,再通过对不同层级输出的卷积特征进行信息融合,最后使用一个神经元将输出值控制在[0,1]之间。该模型通过自主学习两张字符图片之间的相似度,与普通的分类网络相比,该方法拥有更高的识别准确率和较好的泛化识别性能。为提高识别的速度,本文测试过程采用粗分类的方式减少待匹配模板的数量,该方法有效的减少了待测字符图片与模板进行匹配识别的次数和测试时间。3.本文提出字符级文字检测与识别级联算法进行场景汉字文本行识别。通过字符检测网络和字符识别网络的简单结合便能够对文本行进行识别,无需额外的预处理操作。首先针对场景文本行图片,调整本文基于多尺度特征与多目标函数的场景文本检测算法得到字符坐标,然后使用本文基于深度度量学习的场景汉字字符识别算法进行字符识别,最后根据一定的规则组合成文本行识别结果。该方法在处理过程中无需数据扩增,在几种中文文本数据集上都表现出了优秀的识别率。总结下来,本文借鉴语义分割和医学图像分割的思想,提出了一种基于多尺度特征与多目标函数的场景文本检测算法,并以文本行检测与字符检测两种形式,在多种不同的英文和中文数据集上进行了实验比较,大幅度超越了其他检测算法。提出了基于深度度量学习的场景汉字字符识别网络模型,并使用粗分类加速测试的过程,在不同的中文场景字符数据库上取得了显著的识别效果。最后根据本文提出的检测算法与识别算法,本文提出了一种字符级文字检测与识别级联算法进行场景汉字文本行识别,并通过相关数据集验证了该算法的识别性能。
其他文献
采取踏查和定点观察法,对农牧交错区保护性耕作玉米田进行杂草普查。并在此基础上进行了化学除草(播后苗前、生长季)、机械除草(播前、苗期)、人工除草、农业轮作等综合除草技术研
当前建筑业广泛应用的项目法施工需要一种全新的设备管理模式,实施机械设备租赁经营管理的具体做法,在理论和实践上都证明了这种变革是可行的.
随着国内社会经济的快速发展与居民生活水平的不断提高,购物中心在房地产领域成为一个新的增长点。然而,由于宏观经济形势的转变和居民消费观念的变化,已投入运营的购物中心
目的观察骺板细胞在无血清培养液中的生长情况,并通过ELISA方法检测骺板细胞分泌TGF-β1。方法提取3周龄新西兰兔骺板组织,获得良好生物活性的骺板细胞。采用CCK-8生长曲线检
固体氧化物燃料电池(Solid oxide fuel cells,SOFCs)是一种新型的能源转换装置。SOFCs可以将存储在燃料中的化学能转换为电能,被公认是能量转换效率高和环境友好型的发电装置
三元硼化物基金属陶瓷同时具有金属与陶瓷的性能优点,且制备工艺简单,成本低,粘结性高,广泛适用于耐磨、耐腐蚀、耐氧化领域,在硬质材料生产、航空航天、涂层等领域有良好的发展前景和重要的研究价值。其中,Mo_2NiB_2基金属陶瓷具有良好的力学性能以及优良的耐磨性、耐腐蚀性、耐高温性、抗氧化性、导电性、导热性,在功能材料研究方面具有巨大的发展潜力。但由于其烧结活性和韧性较差,影响其综合性能的提升,制约了
应用灰色关联度分析法,对2005年河南省展示的7个春性小麦品种的11个主要性状进行了综合评定。结果表明:濮麦9号、温麦18、郑麦9023的加权关联度值较高,综合性状表现好。
说话人识别,又称为声纹识别,是一种依据语音来判别说话人身份的技术。近些年随着互联网的快速发展和智能移动设备的普及,人脸识别、指纹识别和说话人识别等身份验证技术有了