基于BNN的自然场景英文识别的设计与验证

来源 :东南大学 | 被引量 : 1次 | 上传用户:qtedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的迅速发展和移动摄像设备的普遍应用,自然场景图像成为了人们最常用的信息载体。自然场景文字作为图像信息传递过程中最重要的表现形式,它的识别受到了国内外越来越多的研究。然而,现有基于卷积神经网络(Convolutional Neural Network,CNN)的识别方法由于参数规模过大,不利于嵌入式应用场景下的硬件实现。本文基于二值卷积神经网络(Binarized Neural Network,BNN)的基本原理设计一种用于自然场景文字识别的二值卷积编解码网络。本文首先分析自然场景文字识别方法以及CNN算法原理,设计卷积编解码网络。接着,基于BNN算法原理,将卷积编解码网络中权重和特征图进行二值化处理,进一步设计二值卷积编解码网络,并对网络使用大小为32×128的自然场景英文单词灰度图进行训练和测试。最后,本文对二值卷积编解码网络向现场可编程门阵列(Field-Programmable Gate Array,FPGA)映射过程中的并行度、计算划分、卷积数据缓存等问题进行设计,并基于Xilinx公司的Virtex-7系列开发板VC707完成二值卷积编解码网络的FPGA设计,在此基础上本文进行自然场景文字识别系统的设计和测试验证。软件测试结果表明,二值卷积编解码网络的参数为2.14MB,在图形处理器(Graphics Processing Unit,GPU)GTX1080上的运行时间为4.59ms,在标准数据集ICDAR2003和ICDAR2013上的识别率分别为92.6%和92.1%,与卷积编解码网络相比:识别率稍有下降,但网络速度提高了8倍,参数压缩了96%;FPGA测试结果表明,在100MHz的工作频率下,在标准数据集ICDAR2003和ICDAR2013上的识别率分别为91.3%和91.1%,FPGA识别速度为33.3帧/秒。本文设计的基于BNN的自然场景文字识别,具有运行速度快、占用内存小的特点,适合于嵌入式应用场景下的硬件实现,具有一定的实际应用价值。
其他文献
介绍了水库工程概况,工程总投资及分摊成果,通过对工程总成本及单位成本的测算成果,分析工程可承受供水水价及工程贷款能力,提出工程资金筹措方案,并对资金筹措方案进行评价
相对不起诉制度在法律上的确立 ,顺应了国际刑事诉讼的发展趋势。在我国它适用于犯罪情节轻微 ,以及不需要判处刑罚或者免除刑罚的情形。司法实践中 ,相对不起诉制度还存在着
中国共产党在推动中国发生历史性巨变中,自身也得到了前所未有的大发展,并创立了毛泽东思想.
甘肃龙首山隆起区位于阿拉善地块西南缘,镍资源丰富,矿床类型相对简单为岩浆型,以分布世界级的金川超大型铜镍硫化物矿床而闻名。在龙首山地区,除了金川镁铁-超镁铁质岩体之
中国共产党和中国国民党曾有过两次成功的合作 ,这两次合作皆是内聚强力、外拒压力并尽可能运用国际进步力量的结果 There have been two successful cooperation between t