【摘 要】
:
在深度学习领域,增加训练样本数量或增加模型参数数量是极大提升深度学习应用解决现实问题准确率的重要手段。单个GPU无论在计算能力还是内存大小方面都无法满足大规模深度学
论文部分内容阅读
在深度学习领域,增加训练样本数量或增加模型参数数量是极大提升深度学习应用解决现实问题准确率的重要手段。单个GPU无论在计算能力还是内存大小方面都无法满足大规模深度学习训练的需求。为了使用更多的计算能力并且缩短训练时间,使用大量GPU节点的分布式训练已经成为解决大规模深度学习问题的关键方法。拥有极高带宽与极低延迟特性的RDMA网络,例如InfiniBand与RoCE,在需要大量数据通信的大规模分布式训练过程中可以发挥重要的作用。已有深度学习框架大部分是基于传统的TCP/IP技术实现数据通信,在向RDMA网络移植时,有不同的技术方法可以选择:IPoIB、MPI以及RDMA Verbs。在这三种方法的选择上,需要在易用性以及性能方面做出权衡。不合适的决策可能导致复杂且难以维护的代码实现。本文提出了修改模块化的深度学习框架MXNet使其可以在RDMA网络上运行的移植与应用方法。我们将深度学习训练过程的通信部分划分为三个层次,分别是点对点通信,Allreduce通信以及端到端训练。依据这种层次划分,我们提出了增量式的移植与优化方法,使得性能的提升更有据可循,包括动态切换、用户管理的注册缓存池和轻量级队列等。实验结果表明我们的方法在使用100个GPU时并行效率可以从IPoIB版本的53%提升到96%,接近线性加速。而且对比于MPI版本,我们的移植方法仅需要修改最底层的数据通信部分,所需改动量小,却能够对上层应用模块保持透明,使得很多例如自动恢复、松散的一致性模型等高级特性得以保留。
其他文献
现阶段,我国对于高堆石坝的建设需求不断增加,对于堆石体筑坝材料的相关力学特性研究也至关重要。筑坝堆石料的最大粒径能够超过1m,以现有的试验条件还无法进行原级配室内试
目的:观察db/db小鼠肝组织及高糖处理的Hep G2细胞胰高血糖素受体(Glucagon receptor,GCGR)的表达及作用的变化,并探索高糖处理的Hep G2细胞中YWHAB介导GCGR对糖代谢的影响。方法:Western blot或免疫组化检测db/db小鼠肝脏和有无胰高血糖素(Glucagon,GLN)作用下不同糖浓度或高糖处理不同时间的Hep G2细胞中GCGR、蛋白激酶A(c A
江西省赣南地区是我国离子型稀土矿密集分布区之一,多年矿业开采活动使区域内生态环境遭到严重破坏,土壤污染严重,威胁人类身体健康和社会经济发展。丛枝菌根真菌(arbuscular
水体富营养化加剧致使蓝藻水华频繁暴发,产生的次生代谢产物——微囊藻毒素(microcystins,MCs)对水生态系统与公众健康构成严重威胁。微生物作为生物群落中的分解者,在MCs的自
目的:通过向豚鼠鼓阶直接注射脂多糖(lipopolysaccharide,LPS)造成急性炎症性听力损失模型,全身应用激素和(或)罗格列酮,初步探讨在该模型中是否存在激素上调丝裂原活化蛋白
8Cr4Mo4V钢因其性能优异而被广泛应用于制作航空发动机关键零部件的主轴轴承,其性能及精度直接与航空发动机的可靠性、工作稳定性和环境适应性相关联。热处理是8Cr4Mo4V钢制
厚翻译(thicktranslation)这一概念源于深度描写,由美国学者阿皮亚正式提出,再经中西方学者不断从理论和实践角度发展。笔者翻译了阿兰·德波顿的四篇散文,鉴于其中频繁出现
本研究采用水热法合成NaYF4:Yb,Er/Ho@Bi2WO6上转换复合材料。通过XRD、SEM、XPS、比表面积分析仪等手段对各样品进行表征,以选矿药剂丁铵黑药为目标污染物,考察合成条件对稀
道路交通事故是威胁人民生命、财产安全的社会公害之一。为了提高道路交通安全性,基于道路交通本质安全的理念,研发一种用于路面养护的安全功能材料——钢渣微表处混合料。为
对桥梁结构进行弹塑性地震响应分析的关键是选择能准确模拟延性墩柱构件非线性力学行为的非线性梁柱单元。相较于实体单元和集中塑性铰单元,弹塑性纤维梁柱单元兼具计算效率和计算精度,因此在土木工程结构抗震分析中得到了广泛的应用。本文利用通用有限元软件ABAQUS的二次开发功能发展了一种弹塑性纤维梁柱单元并将其应用于桥梁抗震研究。主要研究内容包括:(1)利用ABAQUS提供的UMAT程序接口二次开发了多种可适