OpenMP并行程序容错技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:mqkxxmvo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,高性能计算机系统的规模已经达到空前的水平,与此同时,系统的平均无故障时间却显著降低,可靠性问题日益严重。因此,必须采用适当的容错技术,使高性能计算应用能够容忍系统故障所引发的程序执行错误。一段时期以来,由于共享存储体系结构在可扩展性方面存在局限性,应用范围不太广泛,因此针对这种体系结构的容错技术研究相对比较缺乏。近年来,随着多核处理器体系结构在高性能计算领域的应用日益广泛,越来越多的高性能计算系统开始利用多核处理器进行构建,并且出现了以SMP系统作为结点的MPP系统,因此针对共享存储体系结构的容错技术研究具有重要意义。OpenMP是面向共享存储体系结构的主流的并行编程模型,本文面向OpenMP应用级容错技术,围绕基于回滚-恢复的容错机制展开研究,主要贡献在下列几点:1.提出程序执行过程中硬件故障所引起的错误在程序中的传播模型,建立错误传播图及相关概念和分析方法,归纳错误传播的性质与结论,为面向OpenMP的容错机制设计提供理论指导。2.提出一种面向OpenMP程序的应用级非阻塞式检查点机制,该机制以一种扩展的OpenMP并行数据流分析方法为基础,选择必需的变量保存到检查点映像,以降低计算状态保存的开销。3.提出一种面向OpenMP程序的并行复算容错机制PR-OMP,由于程序的执行过程中错误往往仅可能发生在一个或两个线程上,所以可以利用未发生错误的线程并行地计算因错误而丢失的计算任务,从而降低错误恢复的开销。4.提出一种面向OpenMP程序的冗余计算容错机制TriThread,使用多个冗余的计算副本同时执行一个OpenMP程序,并在执行过程中的某些时机上对中间的计算结果进行比较和投票,从而在无需计算状态保存的前提下达到容错的目标。与检查点机制和并行复算机制相比,基于冗余计算的容错方法虽然引入更多的空间开销,但在可扩展性方面具有相当的优势,是检查点技术和并行复算机制在可扩展性受限时的替代容错方案。
其他文献
计算技术的迅猛发展,使得集群得到了广泛应用,构建在集群上的应用系统,其可用性一直是备受关注的问题。高可用集群的出现就是为了使集群能够提供高度可靠的整体服务,以应对计算硬
为研究玄武岩纤维掺量对轻质陶粒混凝土性能的影响,制备了4种不同纤维掺量的陶粒混凝土试件,测试了不同龄期试件的抗压强度、抗折强度和表观密度。结果表明:陶粒混凝土立方体
摘要:食品的理化检验是借助理化手段使用某种仪器设备对各类食品的组成成分进行检测,进而确定食品质量的检验,其具有相当高的科学技术性,且关系到整个食品工业的健康发展,同时,其也是食品检验专业的基础课程之一。由于这一课程涉及到人类的生存健康,因此,深入开展食品检验课程改革,使其紧跟现代食品工业发展的步伐显得尤为重要。  关键词:食品检验;教学改革;应用实践  中图分类号:G642.0 文献标志码:A 文
维索尔伦提出顺应论后,与关联论和模因论被公认为语用学的三大主要理论;模糊语的使用是一种特殊却在生活中常见的语用现象。本文将在顺应论的理论框架下对VOA新闻中的模糊语
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
蓄力一纪,可以远矣。—《国语·晋语》2014年3月23日下午4点,随着从新加坡飞来的CA976次航班的准时到达,中铁建工集团12名南极建设者出现在国际航班到达口。这是中铁建工南极
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
现金流分析(1)经营活动现金净流量结论:2017 年经营活动现金净流量持续为负分析:1.2017年上半年,橡胶价格较高,下半年价格较低时,风神公司大量买入原材料;2017 年 1-9 月份,
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield