基于多核DSP的深度学习算法硬件加速技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:jane_89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DSP是一种低功耗专用处理器,同时也是区别于通用微处理器进行复杂算法加速的新型硬件平台,基于DSP平台的深度学习算法优化技术对具有小型化、低功耗特点的一体化智能设备的发展具有重要的推动作用。本文基于高性能多核DSP平台,研究深度学习算法的体系结构适配和并行优化技术,以实现其在多核DSP上的硬件加速。首先,本文研究了基于多核DSP的高性能并行处理系统的体系结构技术,提出了具有三级并行结构的低功耗DSP系统结构,设计了基于DMA的存算并行机制并实现了相应的系统函数。其次,针对深度信念网络,本文研究了在多级并行DSP结构下的算法并行技术,提出了基于大矩阵运算和多核并行机制的DBN并行算法,并给出了具体实现。实验结果表明,DSP上进行DBN预训练过程的吞吐量为989.22幅/s,性能功耗比是主流通用微处理器平台的6.00倍。紧接着,针对卷积神经网络,本文探讨了卷积操作分别使用FFT转化和矩阵乘法转化在DSP上的实现方案,提出了基于卷积矩阵展开的多核DSP并行加速算法。实验结果表明,粗粒度并行、逐通道计算的卷积计算方法的性能最高。最后,针对典型的深度学习编程框架Caffe,本文研究了面向DSP系统的深度学习编程框架DSP for Caffe,设计并实现了支持Caffe主要操作的DSP函数,并针对图像识别领域的Cifar-10、AlexNet和VGG-s三种最主要的大型卷积神经网络并行应用进行了功能验证。实验结果表明,基于该框架的Cifar-10、AlexNet、VGG-s三种并行算法的吞吐率分别达到404.86幅/s、6.35幅/s和2.37幅/s,性能功耗比是主流通用微处理器平台的4.77倍、2.60倍和1.97倍。该框架能支持主要的Caffe表达到DSP实现的自动映射,扩展了DSP在深度学习领域的适用性。
其他文献
近年来,随着我国经济的快速发展,基础设施发展滞后、投资不足的问题日益突出,基础设施建设资金不足已经成为制约我国经济发展的“瓶颈”,项目融资作为一种适用于基础设施建设的新
节水改造是灌区能够长久稳定运营的关键,其重点和难点内容就是渠道衬砌混凝土裂缝的控制。针对这一问题要做到预防为主、治理为辅。文章结合实际分析了渠道衬砌混凝土裂缝产
目的:研究308准分子光、卤米松以及两者联合作用治疗白癜风的可能机制及疗效。方法:将34只正常豚鼠取其背部棕色毛发4cmx4cm大小区域皮肤脱毛,每天两次涂5%过氧化氢,连续60天
目的:探讨疏肝健脾法对CKD3-4期肝郁脾虚型睡眠障碍患者的临床疗效。方法:本研究选取2017年12月至2018年10月广西中医药大学第一附属医院肾病科住院部及门诊病例中符合诊断标准的CKD3-4期肝郁脾虚型睡眠障碍患者60例。将纳入的研究对象采用随机数字表法分为治疗组和对照组各30例,治疗组予常规基础治疗+中医疏肝健脾方治疗,对照组予常规基础治疗+艾司唑仑片治疗,观察时间为4周。入组前收集所有研
本文阐述了有关商誉的基本概念,分析了我国对商誉进行会计处理的现状,提出了有关建议。要进一步规范商誉减值的会计核算;自有或自创商誉在一定条件下应纳入企业财务账目核算;对于
目的:1、建立体外人脐静脉内皮细胞(HUVEC)高糖损伤模型,使用不同浓度的西格列汀干预后观察细胞HMGB1(High mobility group box 1)、PI3K(Phosphatide 3-kinases)、Akt(Protein kinase B)、mTOR(Mammalian target of rapamycin)、P62(Sequestosome 1)、LC3-II(Micro