论文部分内容阅读
随着人工智能技术的发展,机器学习方法与神经网络结构越来越复杂化,大量的数据计算对处理这类应用的计算芯片算力有着越来越高的要求,特别是深度学习技术的出现,其应用中神经网络层结构越来越多,内部处理数据量也越来越大,这就要求处理芯片具有很好的适应性与性能。同时深度学习与神经网络的应用场景越来越多,根据任务量与应用特性,考虑芯片布置成本,设计高效率的芯片解决方案显得十分重要。现阶段深度学习主流的芯片解决方案包括通用处理芯片CPU与GPU,FPGA与异构计算处理方案及专用集成芯片(ASIC)方案,各个方案计算效率上均有其优势与不足,需根据场景相应布置。在相关芯片解决方案的探索中,主处理器加上深度学习专用模块来支持神经网络结构与深度学习应用提供了一种新的思路,此类解决方案可以称为AI芯片,有其计算优势与较好的场景适应性,在移动设备与轻量级应用中相关芯片形成AI处理器具有了较高的计算效率。本文开展了 AI芯片解决方案中深度学习专用加速模块的研究,重点引入NVIDIA深度学习加速器NVDLA进行了芯片加速模块的探究。本文阐述了深度学习与神经网络的相关知识,包括机器学习的方法概述与神经网络的基本构成,以及深度神经网络与卷积神经网络两类典型的深度学习神经网络,重点划分了卷积神经网络执行深度学习推断过程时各个网络结构的阶段工作,解析NVDLA内部芯片模块对卷积神经网络执行推断任务的硬件加速将其与之对应。本文开展了对NVDLA硬件架构规范、软件开发环境和虚拟平台的研究,使用Caffe深度学习框架下的LeNet模型与AlexNet模型两个经典卷积神经网络模型作为测试实例,在虚拟验证平台下完成对NVDLA的功能测试,评估了NVDLA的功能性以及对深度学习框架与神经网络结构的支持。研究在联华电子80nm工艺下对NVDLA的激活引擎模块、池化引擎模块和本地响应规范化模块三个芯片核心模块进行了芯片逻辑综合与芯片物理实现评估,并探究了影响芯片规模的相关NVDLA硬件设计参数。本文对NVDLA进行了探索性的验证与评估,对NVDLA的集成与应用具有指导意义,同时深入分析NVDLA内部核心模块与卷积神经网络特征结构,以及NVDLA内部数据路径,对自行设计深度学习专用加速硬件模块和相关软件调度方案具有一定的借鉴意义。