分布式机器学习加速机制研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Happyboy123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是大数据处理的常用工具之一。然而,依靠单个计算节点的计算能力处理大规模的数据集,不能在可接受的时间范围内将模型训练到满意的精度。通常采用多个计算节点来实现数据并行训练。每个计算节点迭代式地处理部分数据集,每次迭代都要通过网络与其他计算节点同步模型的信息,保证训练的正确性。由于模型规模通常在数百兆至数千兆字节之间,每个计算节点每次迭代都要交互等同于模型大小的数据量,例如模型的参数或者梯度,使得分布式机器学习成为通信密集型和计算密集型的应用。为了支撑人工智能驱动的业务,各个大型公司,如谷歌、微软、亚马逊等,纷纷建立了GPU集群,专门用于模型的训练。由于GPU集群的造价昂贵,这些集群通常由多个用户共同使用,集群当中同时运行着由不同用户提交的众多分布式训练任务。由于集群可用资源的碎片化原因,一个分布式训练任务通常分布在多台GPU服务器上,而一台GPU服务器又同时支撑了隶属于不同分布式训练任务的计算节点,各个分布式任务之间不可避免的要竞争有限的网络带宽资源。根据微软的数据统计,集群中的GPU利用率通常只在50%左右,最低可达34.39%,这意味着一半以上的训练时间里,GPU处于空闲状态,等待网络的通信,使得通信成为分布式机器学习的主要瓶颈之一。该通信瓶颈主要来源于两个维度:(1)底层网络缺乏有效的管控手段,例如,在网络边缘侧缺乏有效的手段来调度出入网络的流量,无法提高网络资源的利用效率,在网络内部缺乏有效的拥塞控制机制,无法提升网络的传输性能;(2)上层任务的训练算法所采用的通信策略不够高效,导致通信代价增加。本学位论文从上述两个维度入手展开研究,主要分为三部分工作:1.网络边缘的流量调度研究。对分布式机器学习应用的流量进行调度时,需要充分考虑机器学习模型开发过程的需求。一个机器学习开发流程包含数据预处理、特征工程、模型设计及超参优化等操作,每个操作的配置发生变化都可能会影响模型的最终质量。开发一个满足需求的高质量模型通常要求对上述操作进行不同配置,然后训练模型,根据训练反馈的结果再调节这些配置,以搜索一个配置能够训练出高质量的模型。其中,超参配置的搜索空间庞大,是整个开发流程中最消耗时间和资源的操作。因此,本文将该类问题分为两个子问题进行研究。首先研究加速超参搜索的流调度问题,然后研究能够加速整个开发流程的流调度问题。对于超参搜索,本文研究发现为超参搜索服务的一组协作任务(cojob)具有明显的阶段性特征,并通过原对偶方法设计了排序调度的方案,最小化cojob的阶段完成时间,并实现了一套网络调度系统Grouper。对于整个开发流程,本文研究发现机器学习开发流程中重复训练模型时只需要每次训练的前期性能反馈即可判断是否停止训练这一规律,提出任务进度感知的流量调度算法来最小化前期训练时间,并实现了一套网络调度系统JPAS。2.网络内部的拥塞控制研究。在分布式训练过程中,计算节点之间除了同步模型之外,还需要传输一些控制信息,比如控制包、心跳包等,用来监测及控制分布式训练的状态。这些控制信息数据量比较小,所需带宽也比较小,但是对网络的延迟比较敏感。通过本文的集群实验发现,模型相关的大量数据会在交换机处建立很长的队列,导致这些控制信息经历很长的排队延迟,这些延迟也会增加训练的通信代价。若网络拥塞进一步严重,发生频繁丢包,导致控制信息不能在规定时间内完成,那么分布式训练的控制机制会认为有的节点死掉并停止训练。本文针对上述的实验现象,设计流感知的显式拥塞控制方案,让网络内部的交换机队列维持一个很小的长度,一方面为模型同步提供高吞吐量,另一方面为控制信息提供低延迟、低丢包率,减少通信代价并且防止训练任务停止。3.通信高效的分布式训练算法研究。由于任务的动态到达/离去、资源的动态分配以及底层网络容量的差异,各个计算节点之间的链路速率通常是异构且动态的,现有分布式训练算法通常忽略了网络的实际情况,假设节点之间的链路速率是静态、同构的,导致这些算法在实际应用时,使计算机点频繁通过低速链路进行通信,造成很高的通信代价。本文提出一种新颖的去中心异步分布式训练算法。该算法中各个计算节点通过点对点的方式进行通信,并且根据网络的情况自适应选择对端节点进行通信,使任务的计算节点能够在高带宽链路构建的网络拓扑中进行训练,本文通过理论分析及集群实验证明了训练的收敛性及训练效率。
其他文献
深度学习是机器学习的重要分支,是一种使用多层非线性变换结构进行模式匹配和预测的算法。近年来,深度学习被广泛应用在图像识别、自然语言处理和语音识别等领域,极大改善算法性能,在人工智能中扮演越来越重要的角色,但是在现实应用中深度学习的缺陷也凸显出来。深度学习的大部分任务是有监督学习,需要大量有标签的数据。深度学习模型计算复杂度高,算法容易被攻击,而且缺乏可解释性,其内部工作机制不清楚。贝叶斯推断方法依
从2014年“双创”以来,我国新企业年登记数量屡创新高,创业活跃指数跃居全球主要经济体之首。各行各业创业活动方兴未艾,成为经济和社会发展的新引擎。然而,时至今日,我国的创业活动总体创新质量还有待提升,主要创新指标依然落后于发达经济体,甚至在关键核心技术领域受到发达国家的“卡脖子”限制。十九届五中全会提出“创新”在经济建设全局中的核心地位,把科技自立自强视为未来国家竞争力的战略支撑。作为科技活动与商
可延展柔性电子通过对无机功能薄膜进行力学结构设计,可在保持无机材料高电子学性能的同时使器件具有宏观的可变形、可延展等特性。可延展柔性电子器件因其兼备高性能和可变形等优点受到广泛关注,目前已用于可穿戴无线射频识别、可穿戴柔性传感器,柔性电池等领域。但作为一类新型的电子器件形式,可延展柔性电子器件中的一些关键科学与技术问题仍处于初步研究阶段,急需进一步开展相关研究。从器件制备的角度,可延展柔性电子器件
在分布式传感器网络中,每个节点通过与临近节点交换多目标后验分布并联合所有临近节点的信息进行融合。但分布式传感器网络中的节点因功能、配置时钟、探测范围等特性的差异,导致节点间往往无法在相同视域内的同一时间点探测到相同的目标信息,造成基于广义协方差交叉(GCI)和加权算术平均(WAA)准则的分布式融合算法失效。能否保证待融合信息所表征的目标信息一致,是保证时间异步和非同视域条件下的分布式融合算法有效的
资源分配问题是网络系统中一类重要的优化问题,而且已在传感器网络、智能电网和交通系统等领域得到广泛的研究。由于分布式算法能够有效克服由设备故障、外部扰动和通信延时引入系统中的不确定性,而且不需要一个中心结点去获得优化问题的完整信息,还能够有效地保护个体的隐私,这些优点使得分布式资源分配算法引起了学术界和工业界的广泛关注。本文利用图论、非光滑优化理论和拉萨尔不变原理等理论工具分别研究包含通信时间延时的
语音合成(speech synthesis,又名text-to-speech,TTS)是人机交互的重要方法之一,旨在合成清晰且自然的音频。语音合成的应用场景非常广泛,比如手机和个人电脑的语音助手、同声传译的语音输出环节、车载导航播报、新闻朗读等等。通过语音合成,可以解放用户的眼睛,使人能在“眼观”的同时还可以“耳听”,增加信息接收的带宽。最近,随着神经网络的快速发展,端到端的语音合成模型逐渐进入人
在这个信息网络高速发展的时代,神经网络作为现代人工智能技术领域不可或缺的部分已经被广泛地研究,并成功应用于各种科学和工程领域,包括信息领域、医疗领域、控制领域、交通领域等。值得注意的是,神经网络的这些实际应用在很大程度上依赖于它的动态性能。然而,由于神经元之间信号传输速度的局限性和一些外部干扰因素,时滞在神经网络的实现及应用中是普遍存在的,极有可能会导致意想不到的动态行为,如振荡、低性能、甚至不稳
基于电磁波与金属-介质复合微结构相互作用的等离子体共振传感器是一种传感性能优越、体积小、易集成的传感器件,它常表现出对环境湿度或溶液折射率、生物分子类别和浓度、入射电磁波倾斜角度的灵敏响应,在化学、生物、海洋产业领域都有潜在的应用市场。然而,等离子体共振传感器距离实际应用还存在很多问题,例如:等离子体共振传感器的制备成本高、简单结构的传感器的传感性能较低。针对以上问题,本论文首先研究低成本高输出的
随着科技的日益快速发展,传感器作为信息获取的源头,其作用和地位愈加重要。石英晶体微天平(Quartz crystal microbalance,QCM)作为一类十分重要的质量传感器,目前,在很多领域获得了广泛应用。本文以QCM传感器质量灵敏度的关键技术为研究对象,通过深入研究QCM的传感机理,并结合有限元仿真技术,揭示了决定QCM传感器质量灵敏度的关键因素,提出了通过优化电极结构设计来提高QCM传
随着世界各国经济和科学技术的飞跃发展,移动机器人的应用领域越来越广泛,其应用场景也从室内环境拓展到了各种复杂环境,如野外、水下、空中甚至外太空等。目前,对于复杂环境的机器人系统仍存在许多尚待研究的课题。本文针对环境全局信息已知、地面崎岖不平的复杂环境条件下的轮式机器人的路径规划和轨迹跟踪控制技术进行研究。本文建立了崎岖地面的环境模型,针对曲面路径规划算法的时间复杂度改进问题,提出了多尺度技术。针对