基于CPU-FPGA异构计算的卷积神经网络加速方案研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:nibeibei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的不断发展,卷积神经网络已经广泛地用于解决各种复杂问题,并在学术界和工业界引起了大量的关注。在物联网技术的推动下,卷积神经网络也开始应用于各种嵌入式和移动设备,用来实现各种智能功能。在这些应用场景中,FPGA特别适合用来加速卷积神经网络的计算,因为其具有高性能、低时延、低功耗以及开发周期短等优点。为了解决卷积神经网络大量的参数和计算量所带来的限制,同时满足多样化的卷积神经网络结构,研究者在FPGA上设计了深度学习处理单元(DPU)用于对卷积神经网络的通用加速。目前DPU的加速方案存在着DPU利用率和DPU调度效率低的问题,本文针对这两个问题分别提出了MCDS加速方案和DPU Plus加速方案。本文主要研究内容如下:1.对于卷积神经网络在FPGA上的硬件实现,本文使用了Xilinx提供的DPU加速方案。该方案中的DPU是一种通用的卷积神经网络加速器,通过与软件工具配合,DPU可以完成对各种卷积神经网络模型的加速计算。本文使用该方案完成了几个常用的卷积神经网络模型的硬件实现,同时使用这几个卷积神经网络模型去执行智能交通场景下的智能任务,并达到了一定的检测速度与精度。2.对于在DPU上执行卷积神经网络模型时DPU利用率低的问题,本文提出了MCDS加速方案。该方案旨在硬件资源有限的FPGA上,设计多个不同尺寸的DPU核。本文完成了不同尺寸DPU核的硬件实现,并测试了几个常用卷积神经网络模型在不同尺寸DPU核上的DPU利用率和FPS。实验数据表明,与Xilinx提供的DPU加速方案相比,MCDS加速方案有效地提升了DPU利用率和DPU核数量,从而提升了DPU的整体吞吐量,达到加速计算的效果。3.对于卷积神经网络模型的应用系统中的DPU调度效率低的问题,本文提出了DPU Plus加速方案。该方案旨在FPGA上同时实现DPU核和辅助模块,并让两者能够共同完成计算任务。DPU Plus加速方案是一种通用的硬件设计方案,其充分利用了FPGA的高性能和灵活性。通过制作流程的创新,本文完成了DPU Plus的一种硬件实现,并基于此硬件开发了上层应用系统。实验数据表明,与Xilinx提供的DPU加速方案相比,DPU Plus加速方案能有效地提高DPU调度效率,从而提升了应用系统的整体吞吐量,达到加速计算的效果。
其他文献
随着云数据中心规模和数量的快速增长,制定有效的能效评估方法成为提高云数据中心能效亟需解决的重要问题。能效评估作为云计算领域的一个新的研究难点,目前的研究主要是考虑云数据中心的相关能效指标,权衡云数据中心能耗、系统性能和服务质量(Qo S)需求的相互关系。但是缺乏主客观结合、定性与定量综合的评估方法,以更准确地评估云数据中心能效的高低。鉴于此,本文对云数据中心能效评估方法做出以下研究:首先,本文介绍
底火是枪弹的关键零件之一,在子弹的击发中起到引火的作用,底火的质量直接关系到子弹的击发成功率。为了保障底火出厂的质量,要求对底火进行缺陷检测。目前生产线上仍依赖人工检测底火缺陷,存在效率低、易疲劳和标准不一致等问题。本文针对底火外观缺陷的自动化、无接触式检测需求,研究了基于机器视觉的检测方法。本文所做的工作如下:1.本文提出一种底火顶部缺陷检测方法。为了快速、准确地提取顶部和侧面感兴趣区域,本文提
相较于经典的电力主导的需求响应,现今的家庭系统内电、气、新能源等多种形式的能源并行,蕴含着提升系统运行的平稳性与经济性的潜能。家用型气电两用产品在住户中的普及程度不断提升,可帮助提升综合需求响应的优化灵活度。调度中能源、可调负荷、用户等多方面因素具有不确定性,严重影响着家庭综合需求响应优化的经济性和稳定性。据此,面向该问题提出一种家庭综合需求响应自动优化方案,减少家庭的能源开销。主要研究工作有:第
在卫星通信系统中,介质加载微波部件的微放电现象严重影响大功率载荷的工作稳定性。空间微波部件多为单面或双面介质加载结构,单、双介质层表面电荷积聚产生的静电场增加了微放电过程的复杂性。目前,对于单面介质加载微波部件微放电的研究大部分是在表面电荷均匀积聚的前提下展开的,所计算出的静电场是近似值且为均匀分布。因此,开展介质表面电荷非均匀积聚的研究,有利于对微放电更精确的分析。工程上,以千瓦级大功率微波环流
语义分割任务是对图像进行像素级别的分类预测,其难点在于对像素级别的准确预测以及对同类物体的边缘划分。为了捕获分割物体的全局信息,现有的方法大多采用基于编解码结构的网络模型,以快速扩充网络的感受野。但连续的下采样对特征图的空间信息造成了不可逆转的损失。针对街景道路场景下的语义分割任务,本文设计了一个并行网络,通过高分辨率路径提取丰富的空间信息,同时设计了一个重定位模块来缓解低分辨率路径中丢失的上下文
随着人工智能与计算科学等学科的飞速发展,移动机器人在农业、工业和服务业等领域内的应用日益广泛。在机器人完成任务的过程中,自主导航起到了关键作用,而路径规划技术作为其重要组成部分,受到了众多科研人员的关注。但是,已知的路径规划方法都存在着各种各样的缺陷,如蚁群优化算法(Ant Colony Optimization,ACO)收敛速度过慢;人工势场法(Artificial Potential Fiel
二维层状过渡金属硫属化合物材料由于具有可调节的带隙、较大的比表面积以及不同的相等特性,在光电学、磁学、能谷电子学、催化等领域有着广阔的发展前景,因而成为了全世界科研工作者竞相关注的焦点。过渡金属硫属化合物材料有着多种多样的形貌结构,不同的形貌结构决定了其截然不同的物化性质,而对低维材料的维数进行调控是探索其新奇物化性质的一种重要方式。研究表明可以使用自下而上的化学方法制备一维过渡金属硫属化合物纳米
目标跟踪是一项计算机视觉的基础研究方向,常见于汽车自动驾驶、交通监控系统等应用场景中。随着深度学习的兴起,各类性能优异的算法相继被提出,Siam RPN便是其中之一。该算法借鉴目标检测任务中的检测模块,提出孪生区域候选网络结构,实现了对跟踪目标的前景背景分类预测及边界框回归预测,但该算法的检测模块采用的是L1范数损失函数,未考虑预测框与真值之间交并比(intersection over union
多时间尺度耦合作为非线性动力学不可缺少的一部分,在实际工程应用中极具价值和发展前景,是当前非线性动力学的研究重点。多时间尺度因素会诱发系统产生丰富的动力学行为,其中以簇发振荡现象为典型代表。因此,探讨多时间尺度耦合系统存在的簇发振荡及其演化机制具有深远的意义。本文以两类快慢耦合系统为例,分析不同条件下系统动力学的演化行为,主要内容如下:1.构造参数激励驱动下的两时间尺度QI系统,运用快慢分析理论,
磷酸盐固化技术是解决土壤铅(Pb)污染的一种有效修复方法。然而,使用可溶性磷化合物极易浸出造成水体富营养化,且修复成本较高。基于生态环境保护和成本效益,近些年研究者倾向于利用难溶性磷化合物对Pb污染进行修复,但是难溶性磷化合物的低溶解率又限制了Pb的固化效率。草酸青霉(Penicillium oxalicum)是一种广泛分布于土壤环境中、可分泌丰富有机酸并能提高土壤难溶性磷酸盐溶解率的生物资源。因