论文部分内容阅读
云服务商供了计算能力的租赁服务,随着近年来大数据、人工智能的各类应用迅速落地并产业化,对于海量数据分析相关业务的需求快速增长。这使得云服务商所需支持的业务不仅包括传统的各类交互式网络服务、内存数据库等,也需要包含更多的诸如神经网络训练、回归分析等计算密集型非交互式客户需求。显然,从云服务提供商的角度而言,如何通过更少的投资满足更多的客户需求是一个核心的研究内容。然而由于云平台上运行的应用愈发多样化,其优化目标也变得较为复杂和多样化,例如,针对计算密集型的神经网络训练和IO密集型的视频流服务,优化目标和策略有着很大差别。本文研究对于一个典型的云服务器(同时运行着对计算资源、带宽资源要求程度完全不同的多个用户任务),分别从系统级别的进程调度算法以及应用级别的梯度下降算法两方面进行深入的研究。显然,本文研究的云服务情境下的服务器所面对的问题相对于以往常见的以最大化服务器全局性能的研究有较大的不同。由于在云平台上,服务器除了需要运行计算密集型的优化应用,也同时运行着人机交互类型的应用,例如视频服务器,网页服务器等。此类应用往往对于延迟的抖动或者是性能的不稳定非常敏感。当云服务器上运行着此类延迟、抖动敏感的应用时,仅仅追求云服务器总体性能最优(例如总平均IPC最高等)往往会使得此类应用的计算、带宽资源无法保证而被计算密集型应用挤占并造成性能的较大程度的不稳定,延迟抖动等。对于云服务提供商而言,由此造成的用户体验下降是难以接受的。另一方面,对于云服务器上所运行的计算密集型应用,例如神经网络的训练、回归分析等,一般追求较快的收敛速度以节约时间,因而本文又希望研究算法提升其收敛速度。显然,在云服务的特殊情境下,需要一方面尽可能保证系统的稳定性以使得延迟/抖动敏感的人机交互进程的性能保持稳定,另一方面又使得随机优化类的计算密集型应用取得尽可能高的收敛速率。基于以上考虑,本文主要研究并提出了两个层级的优化方法以使得云服务器能够较好的满足以上两点要求:·一、系统级优化针对系统性能稳定性的要求,大部分的研究集中于资源的指定/强制分配和划分,然而此类方法会使得硬件资源利用率降低,即保证了应用的性能稳定性/最差性能的同时使得整个服务器的整体性能大幅降低。不同于资源分配方法,本文提出了一种进程级的共享缓存占用量预测算法并根据预测得出的缓存占用量对进程的缓存争用特点进行建模。依赖于缓存争用模型,本文进一步提出了性能稳定性导向的用户进程调度算法来控制共享缓存对。通过本文所提出的共享缓存调度算法,系统中大部分的用户进程都处于较为稳定的运行状态,在遇到负载突变或者是缓存未命中率突变的情况下,应用性能变化维持在较小水平。由于本文的算法并不强制分配/划分资源给特定的应用,而是采用调度共享缓存的策略,不存在资源利用率急剧下降的问题,因而系统总体性能仍然维持在较高的水平。·二、进程级优化针对云服务计算中近年来非常流行的随机优化应用,诸如神经网络训练等,异步随机梯度下降算法(ASGD)由于其可以利用多核系统的并发性而成为最为广泛采用的一种求解器(Solver)。与此同时,近年来针对SGD算法的加速技术得到了较为集中的研究,然而对于ASGD的加速技术的研究则仍较为滞后。其主要原因是ASGD所处理的数据集往往是稀疏的,本文发现现有针对ASGD的加速算法在处理稀疏数据集时性能下降非常严重。其本质原因是现有的ASGD加速算法均会使得梯度的稀疏度丢失,这大大增加了单次迭代所需要的计算量。为了避免这个问题,本文提出采用重要性采样(Importance Sampling)算法(IS-ASGD)予以改进ASGD并提高此类优化应用的收敛速度,其主要特点是能够保持梯度的稀疏度因而特别适用于云服务器的多核系统场景中。本文从理论上证明了IS-ASGD更优的收敛界,针对大规模稀疏数据集以及递归神经网络的实验结果充分验证了IS算法在加速ASGD/SGD算法方面的有效性。·三、递归神经网络(RNN)的重要性采样应用针对SGD/ASGD的许多加速算法仅在诸如线性回归等简单的优化场景中验证和应用,特别是针对ASGD在神经网络中的应用尚未有相关研究发表。本文的第三部分创新性的将重要性采样算法用于递归神经网络的训练加速,通过详细的分析各类RNN网络的特点,本文给出了在RNN中应用重要性采样的理论方向并通过在多个广泛使用的RNN应用中使用重要性采样获得更快的收敛速度与更好的收敛结果。以上三方面研究属于不同层面,即系统级进程调度策略以及进程级的求解算法优化,其互相正交,可以结合使用以在工业应用中使得云服务器在典型的用户负载下的系统效能(用户进程的性能稳定性、优化算法收敛速度)得到较好的提升,使得云服务所能服务的用户数量更多,用户体验更好。本文所研究的基于共享缓存的进程调度算法以及异步随机梯度下降算法加速收敛的研究成果在项目提出方的公司评审中认定优秀。除合同要求外的所有代码均开源在Github网站上供研究者进一步参考和验证。