论文部分内容阅读
近年来,随着人工智能的兴起,以深度学习为代表的新型智能算法在机器视觉、图像处理、模式识别等多个工程应用领域得到成功应用。但是,在工业大数据的冲击下,传统的软件实现方式无法满足实际工程低成本、高时效、高容错率的需求,因此急需寻求新的解决方案。现场可编程门阵列FPGA作为一种常用硬件开发平台,拥有大规模的分布式硬件资源,并且具有开发周期短、功耗低、性能好等特点,非常适合计算密集型的深度学习算法的实现。本文以FPGA为硬件开发平台,展开深度学习的硬件化实现与优化技术研究,主要研究内容如下:首先,深度学习硬件实现总体方案设计。详细分析深度学习的理论基础知识,并以卷积神经网络为例,进行网络的拓扑结构和功能特点研究,给出本文硬件实现的具体网络拓扑。根据网络拓扑的结构特点,进行系统的总体方案设计,将网络拓扑映射到具体的硬件电路。其次,完成算法硬件移植的优化技术与架构设计。选择FPGA作为本文实现的硬件移植平台。结合本文实现低功耗、高效率深度学习算法的目标,分别对硬件移植的优化技术进行深入研究,并应用优化技术完成对卷积神经网络从粗粒度到细粒度的并行架构设计。然后,完成基于FPGA的卷积神经网络设计与实现。以FPGA为硬件开发平台,完成卷积神经网络的整体架构设计。根据卷积神经网络的结构特点,完成设计各功能电路模块,包括卷积运算模块、抽样运算模块、激活函数模块。本文设计乒乓缓存结构,优化数据传输结构和数据缓存单元。用仿真软件Modelsim分别验证各模块功能正确性。最后,搭建系统整体实验平台。依据现有的实验条件,配置网络结构与参数,设计“FPGA+CPU”的异构体系,完成卷积神经网络的硬件固化。以手写数字识别为具体应用,完成软件和硬件的对比实验。通过大量的实验统计,结果表明本文设计的基于FPGA的卷积神经网络功能完整,性能优异。