基于GPU的深度学习算法并行化研究

来源 :东南大学 | 被引量 : 16次 | 上传用户:ztt399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于深度学习在图像识别、语音识别、自然语言处理等领域表现突出,已经成为学术界和工业界的研究热点。神经网络中通常包含大量可训练的参数,因此训练出一个性能良好的神经网络需要耗费大量时间。另一方面,为了能从海量的数据中学习到更有价值的特征,深度神经网络的层次正不断加深,进一步增加了网络训练的耗时。如何提高网络的训练速度、缩短网络的训练周期已经成为深度学习领域的一个重要研究方向。近年来,图形处理器GPU的通用计算技术得到了迅速的发展,现在主流GPU的浮点运算能力已经是主流CPU的十多倍。GPU由于其强大的并行计算能力、高吞吐量等优势已经成为高性能计算领域的主流加速器。基于以上分析,对现有的并行加速算法进行了充分研究后,本文借鉴了将卷积运算展开成矩阵运算的思想,基于CUDA计算框架实现了对深度学习算法的并行加速,进一步提高了 GPU的并行效率。本文的主要工作如下:1)分析了神经网络的基本思想、网络结构,并对传统人工神经网络中的反向传播算法进行了详细研究。重点研究了卷积神经网络的稀疏连接和权值共享的特性,对卷积神经网络中的卷积计算、池化处理以及梯度计算过程进行了详细完整地推导,为深度神经网络的并行化实现提供理论指导。研究了 GPU的硬件性能以及CUDA的线程结构、存储结构和编程模型。2)采用卷积运算展开成矩阵运算的思想以及ReLu激活函数等方法,基于CUDA平台,在GPU上设计并实现了卷积神经网络中的卷积层、采样层、全连接层和激活层的前向计算、反向传播以及参数更新过程,然后给出了神经网络的搭建步骤以及参数初始化方法,最后描述了神经网络的训练过程。3)利用已经实现的隐藏层分别构建出LeNet-5、CIFAR-10和AlexNet这三种规模不同的神经网络。然后分别基于MNIST数据集、CIFAR-10数据集和ImageNet数据集在CPU和GPU上对三种神经网络进行训练,并分析网络中各网络层的前向计算和反向传播时间。三个神经网络在准确率没有下降的情况下,在GPU上的加速比分别为8.1,33.5和48.9,和当前的深度学习计算框架相比,本文提出的并行加速方法也存在一定的优势。
其他文献
目的探讨推拿治疗冠心病合并心绞痛的临床效果。方法选取我院在2012年9月到2013年9月收治的86例冠心病合并心绞痛患者为研究对象,随机均分成对照组和观察组,每组各43例。对照
无乳链球菌为B群链球菌(S.agalactiae),是一种β-溶血链球菌,存在于人类的胃肠道,妇女生殖道易感染B群链球菌,B群链球菌主要通过分娩时的垂直传播或分娩后水平传播等途径感染
会议
目的:探讨补肾壮骨方加减治疗强直性脊柱炎的临床研究。方法:将97例强直性脊柱炎患者随机分为两组,对照组口服柳氮磺胺吡啶肠溶片治疗,中药组在对照组基础上给予补肾壮骨方治
回避制度是民事诉讼中的一项重要制度,以保证民事案件得到公正的审判。2013年1月1日施行的《民事诉讼法》中涉及回避制度作出了一定的修改。在审判实践中,我们不难发现回避制
本文研究了一种基于DSP的逆变器控制系统的设计与实现方法。逆变器具有广泛的用途,其性能的优劣主要由其控制系统决定。采用一种基于TMS320F28335为控制器的逆变器控制系统,对
马克思社会历史理论不仅实现了科学认识的变革,也实现了价值取向的变革,这集中体现于其批判继承了近代人道主义的优秀价值取向,体现于对人的解放和发展的追求。科学认识和价
目的 探讨中国大陆使用互联网的男男性接触者 (MSM)的危险性行为。方法 根据知情同意的原则 ,于 2 0 0 1年 8~ 11月在 7个中国同性恋网站招募 35 3名MSM。使用含 85个问题的
<正>自2012年起,一场声势浩大的教育革新在国际社会引起极大震动,甚至被一些学者比作一场教育界的"古希腊式的复兴"。到了2013年,国内众多名校也纷纷加入,各类参照MOOC的社会
<正>多终端使用,新闻消费、信息消费发生了很大的变化,导致传统媒体不得不跟着变化,与时俱进本报道汽车全产业链的深度杂志,一月一发声的频率显然不能应对生动的汽车世界,必
期刊