论文部分内容阅读
并行计算是提高计算机系统性能的主要手段,然而随着系统规模的扩大,系统结构日益复杂,编程、存储、能耗和可靠性等问题大量涌现,它们均在不同程度上制约了并行计算的可扩展性。可扩展性的概念得到了进一步的发展,其内涵从单一的以提高计算性能为目标逐渐演变为权衡多种要素关系的综合性问题。因此,需对其重新审视和研究。本文主要研究能耗与并行计算可扩展性以及可靠性与并行计算可扩展性的关系,即能耗可扩展性和可靠可扩展性问题,为此文中分能耗篇和可靠性篇分别针对这两种可扩展性问题进行研究。在能耗篇中,主要工作体现在:1.提出了能耗可扩展性模型(第二章)度量模型是研究可扩展性问题的基础。文中基于加速比模型,考虑能耗与计算性能之间的关系,分别针对能量消耗有效性及能耗增长与性能增长之间的匹配程度建立度量模型,即能效加速比和能耗性能率模型。前者是能耗可扩展性的有效度量,后者关注能耗与性能的增长关系,将并行计算系统分类为红色可扩展系统、黄色可扩展系统和绿色可扩展系统。2.提出了能耗墙理论(第三章)当前,国际上对于“能耗墙”还未有一个统一的认识,尤其是其内涵及量化等均未有研究。本文提出的能耗墙是并行计算能耗可扩展程度的量化。文章基于能效加速比模型,提出能耗墙理论并给出相应的证明。进而分析红色可扩展系统、黄色可扩展系统和绿色可扩展系统与能耗墙之间的关系,并证明红色可扩展系统始终存在能耗墙,而黄色和绿色可扩展系统不存在能耗墙。3.提出了网络动态能耗优化技术(第四章)能耗墙理论指出,网络能耗是造成能耗墙存在的主要因素之一,它包括静态能耗和动态能耗两部分。本文主要针对网络中动态能耗进行优化,提出了网络系统累加原理,建立基于任务布局的网络动态能耗优化模型。实验表明,该方法能够有效降低网络中的动态能耗,为解决能耗墙问题迈出了第一步。在可靠性篇中,主要工作体现在:1.提出了可靠可扩展性模型(第五章)随着系统规模的增长,可靠性也逐渐下降,严重影响了大规模并行系统的正常运行。因此,需采用必要的容错机制来提高系统的可靠性和可用性。容错往往是有代价的(时间和金钱等),这些代价在不同程度上影响和制约了并行计算的可扩展性。文章考虑容错的时间开销,建立可靠加速比模型,并根据可靠性与计算性能的关系将系统分为常量系统和递增系统两类。此外,在可靠加速比模型的基础上进一步考虑了容错的金钱开销,建立广义可靠加速比模型。2.提出了可靠墙/广义可靠墙理论(第六章)与“能耗墙”的研究现状类似,国际上,“可靠墙”也仅停留在一个术语上,对于它的内涵及量化等均未有研究。本文根据建立的可靠加速比和广义可靠加速比模型,分别提出了可靠墙和广义可靠墙理论并给出相应的证明。分析了常量系统和递增系统与可靠墙之间的关系,并证明递增系统可能存在可靠墙,而常量系统不存在可靠墙。3.提出了可扩展容错机制(第七章)为了解决可靠墙存在的问题,本文以三模冗余(Triple Modular Redun-dancy,TMR)为基础,提出了一种不制约可靠可扩展性的容错机制—可扩展容错机制。分析引入传统TMR的并行计算运行于Mesh网络拓扑结构系统上的额外开销,得到制约其可靠可扩展性的根本原因,并由此设计出了相应的解决办法,进而提出可扩展三模冗余(Scalable Triple ModularRedundancy,STMR)容错机制。通过理论分析和模拟实验,验证了该机制的可靠可扩展性,有效的解决了可靠墙问题。