【摘 要】
:
文本识别领域一般组合使用卷积神经网络和循环神经网络识别文本行,称为卷积循环神经网络CRNN,然而循环神经网络的串行计算方法会导致训练阶段花费大量时间。本论文研究基于深度注意力机制的手写文本识别模型,致力于在保持识别精度的同时减少训练模型的时间开销。在上述研究的基础上,进一步研究了图片文本识别的两阶段方法和端到端方法。本论文提出了两种用注意力机制代替循环神经网络结构的手写识别模型CANN和CNN-T
论文部分内容阅读
文本识别领域一般组合使用卷积神经网络和循环神经网络识别文本行,称为卷积循环神经网络CRNN,然而循环神经网络的串行计算方法会导致训练阶段花费大量时间。本论文研究基于深度注意力机制的手写文本识别模型,致力于在保持识别精度的同时减少训练模型的时间开销。在上述研究的基础上,进一步研究了图片文本识别的两阶段方法和端到端方法。本论文提出了两种用注意力机制代替循环神经网络结构的手写识别模型CANN和CNN-Transformer。CANN模型使用基于内积的自注意力机制代替循环神经网络提取序列特征,训练时使用连接时序分类算法。CNN-Transformer模型基于编码器-解码器框架,将文本识别问题转化为序列到序列问题,编码器和解码器均使用可以并行化计算的内积注意力机制。本论文在公开的英文手写数据集IAM和中文手写数据集SCUT-EPT上做实验,验证了上述两种模型的有效性。本论文深入研究了神经网络Softmax分类器的工作原理,提出将分类器的工作机制归结为注意力机制的一种应用,探索了通过约束分类层的权值以提升模型泛化能力的多种方法。这些方法包括:不同类别中心变量内积最小化、固定中心变量、为隐层向量添加L2约束和用正交向量组初始化中心变量。本论文进一步研究了组合使用文本识别模型和机器翻译模型进行图片文本识别与翻译的问题,提出了一种两阶段方法和一种端到端方法,使用基于迁移学习的方法训练端到端模型。本论文在合成数据集上做实验,比较了两阶段方法和端到端方法的优缺点。实验结果表明,本论文提出的CANN模型训练速度明显快于CRNN模型。提出的四种提高泛化能力的方法均能够发挥作用,其中为隐层向量添加约束的方法取得了最好的效果。提出的CNN-Transformer模型在中文手写数据集上的识别正确率超过了经典的CRNN模型。在端到端训练数据较少的情况下,两阶段方法的效果比端到端方法的效果好。如果两阶段方法的识别模型和翻译模型的训练数据量与端到端模型相同,则端到端模型更具优势。
其他文献
为满足飞机结构裂纹扩展定量化监测和工程化应用的需求,探索MWM(Meandering Winding Magnetometer)传感器进行结构健康监控的可行性,设计了一种贴附式涡流阵列传感器并为传感
<正>帕金森病(Parkinson’s disease,PD)是一种以中脑黑质多巴胺能神经元变性、缺失和路易体形成为病理特征的中枢神经系统变性疾病,除了典型的运动症状之外,常伴发多种非运
从工艺流程、产品配方及操作要点等方面介绍了软包装香辣牛肉酱的研制和生产.
农村人力资源开发作为解决“三农”问题的根本途径,对我国国民经济的健康发展和和谐社会的建设具有重要意义。我国农村人力资源现状主要表现在数量巨大但质量较低,并存在开发
本文从历时角度,对2007年~2017年7份WEF旅游产业竞争力年度报告关于中国—东盟旅游产业数据调研,并分析了在政府和资源因素影响下的国际地位演变.结果显示,中国—东盟旅游产
本文介绍了医药批发企业进销存管理系统系统的开发技术、功能结构和实现方法。该系统已经经过多个医药批发企业的使用,完全能够满足其药品和医疗器械进销存管理的需求,同时可
房地产行业已从过热的“黄金时代”回归到理性的“白银时代”,行业整体下降,供需逆转。由于房地产交易具有异质性、固定性、交易复杂等特点,传统的B2B、B2C、C2C等模式已经不再具有市场竞争力,房地产O2O平台迅速崛起,目前,国内房地产电子商务平台数量众多,例如:搜房网、腾讯房产、新浪乐居、网易房产、房多多、评房网等。然而这些企业很难对线上和线下优势资源进行全面整合,暂时还无法替代传统的销售渠道。部分
癌症已成为我国死亡第一大原因,死亡人数占全球因癌症死亡人数四分之一。其中大肠癌发病率上升迅速且出现年轻化趋势。大肠癌只要早期发现早期治疗,是可以治愈的恶性肿瘤之一
在新的历史条件下,鹿寨县干部教育培训方式如何改进,质量如何提高,干部教育培训工作如何更好地为经济社会发展服务,为干部健康成长服务,党校事业如何实现科学发展等等。针对
本文通过甲基硅酸钠对硅酸锂溶液进行复合改性,采用VOC、p H值、凝胶化时间、24h表面吸水量等试验方法来研究其对混凝土地坪的保护性能。试验证明复合硅酸锂溶液为环保的碱性