基于系统调度与随机算法的云服务优化技术研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户：wei370210524

【摘要】

：

云服务商供了计算能力的租赁服务,随着近年来大数据、人工智能的各类应用迅速落地并产业化,对于海量数据分析相关业务的需求快速增长。这使得云服务商所需支持的业务不仅包括

【作者】

：

王斐

【出处】

：

上海交通大学

【发表日期】

：

2018年01期

【关键词】

：

共享缓存调度算法性能稳定性异步随机梯度下降重要性采样收敛加速

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

云服务商供了计算能力的租赁服务,随着近年来大数据、人工智能的各类应用迅速落地并产业化,对于海量数据分析相关业务的需求快速增长。这使得云服务商所需支持的业务不仅包括传统的各类交互式网络服务、内存数据库等,也需要包含更多的诸如神经网络训练、回归分析等计算密集型非交互式客户需求。显然,从云服务提供商的角度而言,如何通过更少的投资满足更多的客户需求是一个核心的研究内容。然而由于云平台上运行的应用愈发多样化,其优化目标也变得较为复杂和多样化,例如,针对计算密集型的神经网络训练和IO密集型的视频流服务,优化目标和策略有着很大差别。本文研究对于一个典型的云服务器(同时运行着对计算资源、带宽资源要求程度完全不同的多个用户任务),分别从系统级别的进程调度算法以及应用级别的梯度下降算法两方面进行深入的研究。显然,本文研究的云服务情境下的服务器所面对的问题相对于以往常见的以最大化服务器全局性能的研究有较大的不同。由于在云平台上,服务器除了需要运行计算密集型的优化应用,也同时运行着人机交互类型的应用,例如视频服务器,网页服务器等。此类应用往往对于延迟的抖动或者是性能的不稳定非常敏感。当云服务器上运行着此类延迟、抖动敏感的应用时,仅仅追求云服务器总体性能最优(例如总平均IPC最高等)往往会使得此类应用的计算、带宽资源无法保证而被计算密集型应用挤占并造成性能的较大程度的不稳定,延迟抖动等。对于云服务提供商而言,由此造成的用户体验下降是难以接受的。另一方面,对于云服务器上所运行的计算密集型应用,例如神经网络的训练、回归分析等,一般追求较快的收敛速度以节约时间,因而本文又希望研究算法提升其收敛速度。显然,在云服务的特殊情境下,需要一方面尽可能保证系统的稳定性以使得延迟/抖动敏感的人机交互进程的性能保持稳定,另一方面又使得随机优化类的计算密集型应用取得尽可能高的收敛速率。基于以上考虑,本文主要研究并提出了两个层级的优化方法以使得云服务器能够较好的满足以上两点要求:·一、系统级优化针对系统性能稳定性的要求,大部分的研究集中于资源的指定/强制分配和划分,然而此类方法会使得硬件资源利用率降低,即保证了应用的性能稳定性/最差性能的同时使得整个服务器的整体性能大幅降低。不同于资源分配方法,本文提出了一种进程级的共享缓存占用量预测算法并根据预测得出的缓存占用量对进程的缓存争用特点进行建模。依赖于缓存争用模型,本文进一步提出了性能稳定性导向的用户进程调度算法来控制共享缓存对。通过本文所提出的共享缓存调度算法,系统中大部分的用户进程都处于较为稳定的运行状态,在遇到负载突变或者是缓存未命中率突变的情况下,应用性能变化维持在较小水平。由于本文的算法并不强制分配/划分资源给特定的应用,而是采用调度共享缓存的策略,不存在资源利用率急剧下降的问题,因而系统总体性能仍然维持在较高的水平。·二、进程级优化针对云服务计算中近年来非常流行的随机优化应用,诸如神经网络训练等,异步随机梯度下降算法(ASGD)由于其可以利用多核系统的并发性而成为最为广泛采用的一种求解器(Solver)。与此同时,近年来针对SGD算法的加速技术得到了较为集中的研究,然而对于ASGD的加速技术的研究则仍较为滞后。其主要原因是ASGD所处理的数据集往往是稀疏的,本文发现现有针对ASGD的加速算法在处理稀疏数据集时性能下降非常严重。其本质原因是现有的ASGD加速算法均会使得梯度的稀疏度丢失,这大大增加了单次迭代所需要的计算量。为了避免这个问题,本文提出采用重要性采样(Importance Sampling)算法(IS-ASGD)予以改进ASGD并提高此类优化应用的收敛速度,其主要特点是能够保持梯度的稀疏度因而特别适用于云服务器的多核系统场景中。本文从理论上证明了IS-ASGD更优的收敛界,针对大规模稀疏数据集以及递归神经网络的实验结果充分验证了IS算法在加速ASGD/SGD算法方面的有效性。·三、递归神经网络(RNN)的重要性采样应用针对SGD/ASGD的许多加速算法仅在诸如线性回归等简单的优化场景中验证和应用,特别是针对ASGD在神经网络中的应用尚未有相关研究发表。本文的第三部分创新性的将重要性采样算法用于递归神经网络的训练加速,通过详细的分析各类RNN网络的特点,本文给出了在RNN中应用重要性采样的理论方向并通过在多个广泛使用的RNN应用中使用重要性采样获得更快的收敛速度与更好的收敛结果。以上三方面研究属于不同层面,即系统级进程调度策略以及进程级的求解算法优化,其互相正交,可以结合使用以在工业应用中使得云服务器在典型的用户负载下的系统效能(用户进程的性能稳定性、优化算法收敛速度)得到较好的提升,使得云服务所能服务的用户数量更多,用户体验更好。本文所研究的基于共享缓存的进程调度算法以及异步随机梯度下降算法加速收敛的研究成果在项目提出方的公司评审中认定优秀。除合同要求外的所有代码均开源在Github网站上供研究者进一步参考和验证。

其他文献

国内外抗震规范地基土液化判别方法比较

地震时土体液化是港口建筑物及其他建筑物破坏的主要原因之一,所以在结构抗震设计规范中都有地基土液化判别的方法。但由于土液化的复杂性,不同国家的研究者对液化认识的不同

期刊

港口建筑物地震液化规范

保留抵押权顺位破解银行续贷难题

甲公司以名下土地和房屋作为抵押物，向A银行贷款500万元，并办理了第一顺位的不动产抵押登记。之后甲公司将抵押物抵押给B银行，贷款200万元，并办理了第二顺位的不动产抵押登记。A

期刊

抵押权顺位书面同意抵押物主债权抵押权人银行续贷

内皮损伤与勃起功能障碍研究进展

内皮在维护血管稳态、调节血管紧张度及血流、预防血管内血栓形成等方面起重要作用。血管内皮是阴茎勃起过程中的重要角色,ED多数情况下存在不同程度的内皮功能障碍,内皮损伤

期刊

内皮损伤勃起功能障碍内皮保护

联用比索洛尔和步长稳心颗粒治疗阵发性房颤的效果探析

目的：探讨联用比索洛尔和步长稳心颗粒治疗阵发性房颤的临床效果。方法：选取近几年在我院门诊就诊和住院治疗的118例阵发性房颤患者作为研究对象。随机将这118例患者分为治疗

期刊

比索洛尔步长稳心颗粒阵发性房颤疗效

法氏囊病病毒vp2基因在酵母中的分泌表达及鉴定

应用 Pichia 酵母表达系统高效分泌表达了传染性传染性法氏囊病病毒 vp2 基因片段。首先用 Primer5.0 设计 1 对引物 P1、P2,以插入 IBDV vp2 基因的 PMD18-T-VP2 载体为模板

期刊

传染性法氏囊病病毒VP2基因片段Pichiapastoris表达系统

基于会计信息化视角的中小企业存货采购管理新探

存货管理直接影响企业的生存和发展,而管理的源头——存货采购尤为关键。通过对部分中小企业的走访调查,笔者首先了解了中小企业存货采购的主要问题,然后对其深入的原因进行

期刊

中小企业管理存货采购会计信息化视角

毛泽东的社会公平思想研究

毛泽东的社会公平思想具有深厚的传统文化底蕴和马克思主义理论基础,形成了以共同富裕为目标、以分配公平为核心、以社会主义道路为途径的丰富内容,在中国创造了历史上第一个

期刊

毛泽东社会公平思想

大学生参与城市空巢老人养老服务探究

进入20世纪我国社会进入老龄化阶段,根据老龄办2015年发布的《中国人口老龄化发展趋势预测研究报告》,到2020年我国老龄人口将达到2.48亿,老龄化水平将达到17.17%。面对这样

学位

大学生空巢老人养老服务

拉森钢板桩在堤防护岸沉桩中的施工难点与对策

我国很多地区河流遍布,为防止河流泛滥,经常会修建堤防护岸.堤防护岸工程由于堤防护岸地质、水文、周边环境情况比较特殊,与其他工程存在较大差异,导致局部无法使用钢筋混凝

期刊

堤防工程拉森钢板桩施工工艺质量控制

基于数据挖掘探析当代文献中针灸对肠道双向调节选穴规律研究

研究目的:使用数据挖掘的方法分析近10年当代期刊文献中关于便秘、泄泻两类病种的针灸治疗处方,对比分析两类疾病腧穴使用规律。从而为针灸对于肠道双向调节提供证据,为临床

学位

数据挖掘针灸双向调节关联规则复杂网络分析便秘泄泻

基于系统调度与随机算法的云服务优化技术研究

其他学术论文