论文部分内容阅读
随着人工智能领域的迅速发展和移动摄像设备的普遍应用,自然场景图像成为了人们最常用的信息载体。自然场景文字作为图像信息传递过程中最重要的表现形式,它的识别受到了国内外越来越多的研究。然而,现有基于卷积神经网络(Convolutional Neural Network,CNN)的识别方法由于参数规模过大,不利于嵌入式应用场景下的硬件实现。本文基于二值卷积神经网络(Binarized Neural Network,BNN)的基本原理设计一种用于自然场景文字识别的二值卷积编解码网络。本文首先分析自然场景文字识别方法以及CNN算法原理,设计卷积编解码网络。接着,基于BNN算法原理,将卷积编解码网络中权重和特征图进行二值化处理,进一步设计二值卷积编解码网络,并对网络使用大小为32×128的自然场景英文单词灰度图进行训练和测试。最后,本文对二值卷积编解码网络向现场可编程门阵列(Field-Programmable Gate Array,FPGA)映射过程中的并行度、计算划分、卷积数据缓存等问题进行设计,并基于Xilinx公司的Virtex-7系列开发板VC707完成二值卷积编解码网络的FPGA设计,在此基础上本文进行自然场景文字识别系统的设计和测试验证。软件测试结果表明,二值卷积编解码网络的参数为2.14MB,在图形处理器(Graphics Processing Unit,GPU)GTX1080上的运行时间为4.59ms,在标准数据集ICDAR2003和ICDAR2013上的识别率分别为92.6%和92.1%,与卷积编解码网络相比:识别率稍有下降,但网络速度提高了8倍,参数压缩了96%;FPGA测试结果表明,在100MHz的工作频率下,在标准数据集ICDAR2003和ICDAR2013上的识别率分别为91.3%和91.1%,FPGA识别速度为33.3帧/秒。本文设计的基于BNN的自然场景文字识别,具有运行速度快、占用内存小的特点,适合于嵌入式应用场景下的硬件实现,具有一定的实际应用价值。