论文部分内容阅读
随着高性能计算技术与互联网技术的进一步融合,网格已经从单纯的高性能计算系统发展成为在分布式、异构、动态的环境下及在应用层之上连接各类资源,并提供无缝、可靠、统一的服务访问接口,实现对计算机硬件、软件、数据、存储以及各类资源透明访问控制的一种基础设施。然而,与传统的分布式环境和并行计算环境相比,资源的异构性、动态性和通信的不确定性使得网格环境更为复杂,网格平台较传统的计算平台有更大的出错概率,故障的频繁发生已成为困绕科学家、工程技术人员和网格用户的主要问题之一。如何针对网格系统的特点,引入恰当的容错机制,切实提高网格服务的动态故障检测和处理性能,从而保障网格系统的可靠性和稳定性,是网格界的研究热点和难点。本文基于相关研究成果的对比研究,总结了网格系统的容错需求,给出了一种动态容错管理策略,据此提出了相应的动态故障检测算法、QoS约束的故障处理服务选择算法,并对面向用户作业级的容错服务进行了研究和实现。主要研究工作如下:①针对网格计算的特点,总结了网格系统特殊的容错需求;提出了网格系统容错管理策略,建立了包括故障检测、故障处理、请求代理等模块的容错管理架构,并给出了容错管理策略的运行流程。②针对已有故障检测算法不能有效满足网格系统中多个进程间的故障检测需求的问题,提出了一种动态可扩展的网格故障检测算法。根据网格系统的特点,提出了基于小世界的网格系统架构和动态故障检测模型;结合心跳策略和“小样本”灰色预测模型,设计了一种动态心跳机制,提出了网格系统动态故障检测算法;在此基础上,设计了层次式的故障检测器体系结构。从准确性、完整性和可靠性等方面分析了故障检测算法的性能。通过仿真验证,其实验结果表明该算法是正确、有效的,可用于网格环境下的故障检测。③针对网格系统检测到故障发生时,如何根据不同应用需求选择恰当的故障处理服务问题,提出了一种QoS约束的故障处理服务选择算法。在分析网格故障处理的相关背景及需求基础上,给出几种常用故障处理技术的形式化定义,构建了可扩展的故障处理的QoS约束模型;将基于QoS的故障处理服务选择问题抽象为多目标决策问题,建立了基于信息熵的决策方法,并据此提出了QoS约束的故障处理服务选择算法。通过算例分析,验证了模型及算法的正确性和有效性。④针对本文的故障检测和处理研究,设计与实现了面向用户作业级的容错管理服务。介绍了系统实现支撑平台CGSP的整体架构和管理流程;给出了容错管理服务系统的设计原则,并对系统中核心的用户代理服务、故障检测服务、故障处理服务进行了设计与实现;最后,通过在一个CGSP网格实验环境上验证了本文容错机制的有效性。综上,本文针对网格系统的容错需求,提出了一套涵盖容错管理策略、动态故障检测和故障处理的网格系统解决方案。理论分析和仿真实验结果表明:相关策略及算法是正确、有效的,可用于网格环境下的故障检测和处理,有利于提高网格系统的可靠性和稳定性。