论文部分内容阅读
数据中心作为信息技术的核心基础设施,承载着大量的计算、存储和分析服务。随着数据中心规模的增大,其能耗问题也日益突出。数据中心的电力使用效率(Power Usage Effectiveness,PUE)表征数据中心IT基础设施的功耗在数据中心总功耗中的占比情况,数据中心的PUE值越低,表明其IT基础设施的功耗占数据中心总功耗的比例越高,而制冷、空调、通风系统的功耗占比越低。在典型的数据中心中,服务器能耗往往占IT基础设施能耗的40%-60%。因此,提高服务器能效(Energy Efficiency),能够使数据中心在电力供应受限时承载更多的服务,从而提高数据中心的吞吐量。传统的服务器配置选型主要基于服务器的性能表现,较少关注其能效性。另外,随着数据中心的运行和硬件设备的更新迭代,服务器能效性呈现出明显的代际差异和配置差异,并且数据中心整体能效同建设之初的设计相比变化较大。因此,基于典型负载的特征,优化现有服务器的能效相关配置,不仅可以提高服务器自身能效,也能进一步细粒度地优化数据中心能效。现有的功耗感知调度相关工作主要从任务调度角度出发。但是,在实际的数据中心运行中,任务调度部门往往无法直接和基础设施运维部门共同协调、管理服务器。数据中心运营部门更加关注服务器的能效配置选型,而无法进行任务调度与迁移。本文首先分析了近10年来商用服务器的能效演化趋势,研究了服务器能效与配置选型的相关关系。然后,提出了一种基于随机森林的服务器能效估测方法和基于遗传算法的高能效服务器配置模型。最后,设计了数据中心服务器能效自动化配置框架,并进行了高能效服务器的自动化配置和数据中心运维优化仿真。具体工作如下:(1)收集整理了SPEC官方发布的服务器能效性测试记录(2007-2020),利用多元线性回归模型对服务器能效与配置选型的相关关系进行了深入分析,发现在众多服务器配置特征中,CPU主频、每核心内存大小(Memory per Core)、内存带宽和CPU缓存大小对服务器能效性的影响最大,其中CPU主频和每核心内存大小与服务器能效性成负相关关系,而内存带宽和CPU缓存大小与能效性成正相关关系,服务器内存带宽已经成为影响服务器能效性发展的关键特征。(2)针对现有的服务器能效基准测试方法存在的繁琐、低效等弊端,本文基于随机森林回归算法,提出了一种能够快速估测商用服务器能效性的预测方法。通过筛选合适的服务器配置特征作为训练特征,并对随机森林模型的训练参数进行适当优化,使得改进后的能效估测模型能够达到很高的预测精度。本文在测试数据集上对提出的服务器能效估测模型进行了评估验证,在预测多种服务器能效指标时,能效预测模型的误差百分比都能够控制在10%左右。(3)针对数据中心能效性低和服务器硬件选型困难的问题,本文设计了数据中心服务器能效自动化配置框架,该框架既可以帮助数据中心研究人员通过服务器配置特征快速了解不同异构服务器的能效特性,同时也能够协助数据中心运维部门按照数据中心特定的能效需求进行快速有效的服务器硬件选型。除此之外,本文还进行了数据中心运维优化仿真实验,提出了一种优化数据中心能效性的组合优化方法,该方法通过优化服务器节点的开机调度方案,在数据中心总额定功率的限制下提高数据中心的总吞吐量,进而改善数据中心的整体能效性。本文提出的数据中心运维优化方法可以在不影响上层应用正常运行的情况下帮助运维人员进行数据中心的能效性优化管理。本文利用多元线性回归模型分析SPECpower能效数据集得到的研究结果,以及设计提出的服务器能效估测模型和数据中心服务器能效自动化配置框架,提高数据中心吞吐量和能效比的运维优化方法,对于数据中心能效性相关研究和服务器配置优化工作具有重要参考价值。