容错并行算法的研究与分析

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：sweetlijun

【摘要】

：

随着系统规模的增加,大规模并行计算机的平均故障间隔时间远低于许多大规模科学应用的运行时间,因此大规模科学应用必须能够容忍硬件错误。传统的回滚恢复协议是目前大规模系

【作者】

：

杜云飞

【出处】

：

国防科学技术大学

【发表日期】

：

2008年期

【关键词】

：

高性能计算容错并行计算的可靠性容错并行算法并行复算 GiFT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着系统规模的增加,大规模并行计算机的平均故障间隔时间远低于许多大规模科学应用的运行时间,因此大规模科学应用必须能够容忍硬件错误。传统的回滚恢复协议是目前大规模系统中常用的容错技术,在恢复时失效进程上的计算全部在一个处理器上重算。这是对计算资源的浪费,也使得恢复时间不可能小于前一个检查点和故障发生时刻之间的时间间隔。为了缩短故障恢复时间,本文提出了一种新的容错方法:容错并行算法。文章从容错并行算法的理论基础、概念、设计方法及支撑工具等几个方法对容错并行算法进行了深入的研究,并对容错并行算法的性能进行了分析和测试。本文所做的创新工作主要体现在以下几点:1、给出了并行计算在系统出现故障的情况下的可靠性定义,并基于任务依赖图给出了并行计算可靠性的定量分析方法;基于此分析方法,分析和比较了时间冗余和空间冗余的容错技术对并行计算可靠性的影响。2、为了缩短故障恢复时间,有效提高并行计算的可靠性,提出了一种新的容错方法:容错并行算法。容错并行算法执行时在数据保存段保存计算的中间状态以保证故障时正确的复算;发生故障时未发生故障的处理器通过在线的方式感知故障处理机的故障,并自动通过并行复算恢复故障处理器上的负载。容错并行算法充分发挥无故障进程的计算能力,加速故障恢复过程,缩短了故障恢复时间,使得恢复时间可以远低于checkpoint和发生故障时刻之间的时间间隔。3、容错并行算法设计的基本思想是以程序段为基础,添加数据保存段,故障检测段和复算段构成相应的容错程序段。本文系统地讨论了容错并行算法的设计方法,提出了面向容错并行算法的程序段的划分方法以及分割和合并原则;利用面向并行程序的定值-引用关系确定状态保存段中所需保存的数据;给出了两种复算段中并行复算代码的设计方法:基于循环并行化以及基于模板的方法。同时,还针对矩阵LU分解、快速傅里叶变换以及桶排序等三类典型的并行应用,设计并实现了其相应的容错并行算法。4、为了降低容错并行算法给用户带来的编程负担,本文实现了一个面向MPI程序的容错并行算法设计的支撑工具GiFT。GiFT通过编译指导的方法实现程序段的划分;利用面向并行程序的控制流分析以及数据流分析方法自动确定保存的数据,实现了容错并行算法数据保存的低开销以及数据保存段的自动设计;通过编译指导的方法,实现了基于循环并行化以及基于模板的并行复算代码生成的自动化。5、容错并行算法的性能分析与实验。首先,给出了故障情况下的容错并行算法的性能度量,建立了考虑系统故障情况下的性能模型来预测容错并行算法的完成时间,并以此为基础评估了程序段的运行时间、数据保存开销、故障率以及并行复算加速比等系统参数对容错并行算法性能的影响;随后,针对科学计算中的6个典型测试用例在一个1024个处理器的集群系统上对容错并行算法的性能进行了测试并与系统级checkpointing方法进行了对比,这6个典型测试用例包括矩阵乘程序和5个NPB核心测试用例(EP、IS、CG、MG和FT)。结果表明与checkpointing方法相比,容错并行算法有性能上的优势。

其他文献

消失的拉萨帐篷街

期刊

摇摇头

初论堰塞湖溃坝沉积相特征

堰塞湖溃坝类型包括冰川、冰碛,火山和多种块体地貌(滑坡、崩塌、泥石流等)过程,而溃坝堆积相的种种特点以后者所造成的最具代表性。堆积体平面展布范围大(几平方公里~几十平

期刊

溃坝堆积冰川-冰碛火山堆积块体运动堆积混杂堆积

氢氧化镁的结晶工艺设计

高性能氢氧化镁阻燃剂的研究是镁质化工材料领域的研究热点。为了促进氢氧化镁阻燃剂的工业化生产,并综合考虑生产成本与资源利用等因素,本论文对氢氧化镁阻燃剂的结晶工艺和

学位

氢氧化镁阻燃剂结晶行为工艺设计

桃仁治疗咳喘证

<正> 桃仁味苦、平,功具活血祛瘀,润肠通便,临床常用于治疗痛经,血滞经闭,产后瘀滞腹痛,跌打损伤,瘀阻疼痛,以及肺痈、肠痈、肠燥便秘等症。此外,笔者在辨证的基础上加用桃仁

期刊

咳喘证卧不安

黄连与吴茱萸配伍抗肿瘤相互作用的初步研究

目的:研究黄连与吴茱萸及其主要成分相互配伍在抗肿瘤作用上的协同作用及机制。方法:本研究主要从以下三个方面进行:(1)活性成分配伍的体外抗肿瘤实验。黄连和吴茱萸的主要成

学位

左金丸黄连吴茱萸SMMC-7721细胞S180肉瘤

文体分类阅读定向培养能力——当下语文阅读大世界中的一点小思考

<正>母语的教学是学校教育中永恒的主题,听说读写各项能力同步提高则是母语教学中永恒的目标。历经当代语文教育家的多次批文阐义,阅读教学在当下语文教学中已提升到了极高的

期刊

文体分类阅读教学阅读能力阅读文本定向培养

民办幼儿园教师工作满意度及其影响因素研究

《国家中长期教育改革和发展规划纲要(2010-2020年)》(以下简称《纲要》)发展任务中指出“大力发展公办幼儿园,积极扶持民办幼儿园”。对于民办幼儿园而言,教师是其发展的关

学位

民办幼儿园教师工作满意度影响因素

关于“瘀热”与快速型心律失常

<正> 心律失常通常分为快速型与缓慢型两种类型,快速型心律失常包括各种心动过速、早搏、心房纤颤、心室颤动等;缓慢型心律失常包括窦性心动过缓、各种传导阻滞、病窦、窦性

期刊

快速型心律失常心脉瘀阻

中国互联网招聘发展史话

人才作为战略性资源价值凸显,人力资源服务日益呈现多层次、多元化发展。招聘是人力资源服务业的上游产业,"互联网+招聘"相较于传统线下招聘大幅提升了招聘与求职效率。在"人

期刊

互联网招聘主要形式用户体验社交招聘人力资源服务业前程无忧网络招聘招聘网站招聘平台中华英才网发展史

建筑施工企业定额测定及编制方法研究

施工企业定额是施工企业内部根据自身的生产力,在自身施工成本资料的基础上,结合企业实际情况编制的符合本企业实际利益的定额,是企业对外投标报价和对内进行工程成本经济核

学位

企业定额编制方法ABC分析法原始数据水平测试

容错并行算法的研究与分析

其他学术论文