基于深度学习的场景汉字识别问题研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:dmj_66666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字识别是一种通用的图像理解技术,对信息检索、自动驾驶等应用的研究有着重要意义,基于自然场景图像的文字识别逐渐成为计算机视觉研究中的热点问题,而其中中文场景文字识别是图像识别中最重要和最具挑战的任务之一。与英文字符相比,中文字符结构复杂且种类繁多,识别难度大。随着神经网络的复兴,场景文字检测和识别任务得到了很大推动,近年来涌现了许多基于深度学习的场景文字检测和识别的算法,但大部分都是面向英文数据集的,针对中文场景图像的研究相对欠缺。本文对当前文字检测和识别领域的代表性算法进行研究。鉴于场景汉字识别的研究和实际应用需求,本文主要做了以下三个方面的工作:首先,对于在英文数据集上表现出色的场景文字检测和识别算法分别在英文数据集和中文数据集上进行了大规模的实验和性能对比分析,总结中文场景文字检测和识别问题面临的挑战;其次,对于自然场景中的非水平文本行不易识别的问题,通过在原始图像上根据四边形坐标点进行透视变换,从中裁剪出文本行区域进行识别;最后,根据当前的文字检测和识别算法在中文场景图像中存在的问题,设计了一个基于字符检测的中文场景文字识别算法。一、场景文本检测和识别算法在各个英文和中文数据集上的大规模实验和性能对比分析。在文字检测部分选用EAST和Text Boxes++两个算法在两个英文数据集和四个中文数据集上进行实验并进行跨数据集和跨语言测试,通过实验探讨语言对场景文字检测的影响。同时,在文字识别部分选用Sliding CNN、CRNN和ASTER三个文字识别算法进行研究,并对Sliding CNN进行改进,提出了更高效的基于切片的Slice CNN算法,减少了约一半的训练时间。其中,为了比较不同的特征提取网络对文字识别的影响,Sliding CNN,Slice CNN和CRNN的特征提取部分均采用了VGG、Res Net、Dense Net三种网络结构,用这十个文字识别算法在三个英文识别数据集和四个中文场景数据集上进行实验。二、针对非水平文本不易识别的问题,提出一种基于原始图像透视变换的文本行矫正方法。在原始图像上使用透视变换对文本行进行矫正,然后把文本行从矫正后的原始图像中裁剪出来,矫正后在中文数据集上识别的准确率平均提高了12%左右。与之前根据四边形的最小外接正矩形从原始图像中裁剪出文本行区域,然后使用空间转换网络矫正后再识别相比,避免了额外的训练和关键点预测,简化了模型的学习并节省了训练时间。三、针对当前作为序列识别时面临的缺少大规模中文数据集的问题,设计一个基于字符检测的场景汉字识别算法,把序列识别转化为实例分割和分类问题,先进行字符检测再对检测到的字符区域进行识别。考虑到自然场景图像中存在许多因透视造成的扭曲,所以在字符检测之后对检测到的字符区域进行透视变换。在文本行图像上的识别准确率比之前作为序列识别时最好的ASTER算法的准确率平均高了16%左右。总之,本文通过实验分析现有文字检测和识别方法在中文场景数据集上的不足,提出了相应的解决方案,在一定程度上解决了中文场景文字识别的问题,对场景汉字识别的后续研究有一定的参考价值。
其他文献
报告1例角化棘皮瘤癌变。患者女,78岁,右侧面部肿物1月余,伴疼痛2周。皮肤科情况:右侧面部可见一1 cm×1 cm大小粉色半球形肿物,质硬,肿物中央呈火山口样凹陷,基底部无浸
2016年1月7日,国务院批准实施了《关于支持沿边重点地区开发开放若干政策措施的意见》,意见第十六条明确提出“研究开展跨境旅游合作区,支持包括东兴、崇左等有条件的地区研
在我国资源进口市场结构比较集中的情况下,为了有效降低来自国际市场的风险,需要考察我国与主要资源进口来源地的依赖关系,以明确在国际资源市场上谁是我们可靠的供应商,对这
最大乳酸训练法研究认为:血乳酸浓度在12~20mmo1/1是最大无氧代谢训练最敏感的范围。要达到这个要求在训练课中必须重复多次,在每次运动时运动员要达到超极量负荷,每次间歇休息时又可以获得
期刊
针对某型高炮采用的陀螺式测速瞄准具使用寿命短、维修困难、造价高等问题,运用计算机虚拟现实技术生成与实战近似的虚拟空中目标,利用硅微机械陀螺实时采集火炮转动角速度开
本文根据金融全球化的发展趋势,分析新世纪金融全球化加快发展的原因及其带来的利与弊,结合我国即将加入WTO必然开放金融市场的实际,浅析我国金融业该如何发展并提出几点建议
皮带轮、飞轮等长径比小于1/5的转子通常被称为盘类转子。这类转子在工作时不可避免地受到自身不平衡力的影响,从而产生振动、噪声、疲劳损坏等恶劣影响,因此必须用单面立式
采用水培试验,用10 μmol·L-1 Cd2+对20个高羊茅(Festuca arundinacea)品种进行处理,最终将20个高羊茅品种分为4个类型。为了进一步探究不同品种高羊茅对重金属Cd的耐受机理
<正>马卡连柯说:"教育技巧的主要特征之一就是随机应变的能力。有了这种品质,教师才可能避免刻板的公式化教学,才能估量此时此地的情况特点,从而找到适当的方法并加以正确地
会议
本文从《现代汉语词典(第7版)》(以下简称《现汉》)中选取释义中带有“跟x相对”标记的102对反义语素。按语素性质将其分为成词反义语素、不成词反义语素、混合类反义语素三种类型。研究过程中以标记理论为基础,以定量与定性相结合为研究方法,考察了反义语素在语义层面、构词层面、使用层面三个层面的不平衡,并计算其不平衡度。最后总结了不平衡现象出现的原因。本文主要包括以下四个部分:第一,语义层面的描写和分析。