论文部分内容阅读
随着计算机硬件价格的下降以及计算机网络的不断发展,将计算任务分布到多个物理主机上处理,以提高任务计算速度和降低任务运算成本已经成为一个趋势。这种通过通信线路将多台计算机互联,共同为用户提供服务的系统,称之为分布式计算机系统。分布式计算机系统给用户提供了一个丰富的资源集合。分布式计算机系统研究的范围很广,包括:通信网络、分布式操作系统、分布式数据库、并行程序设计、容错、分布式实时系统等。建立分布式计算机系统应用主要有以下几个原因:资源共享、提高性能、可靠性、通信、可扩展性等。本论文主要针对可靠性(容错)和提高性能(负载平衡)这两方面。主动复制容错的主要优点在于提高系统的鲁棒性和缩短应用的响应时间,负载平衡技术则主要用于提高系统的运行性能。主动复制容错的不足之处在于当系统未出错时,系统资源存在一定的浪费,负载平衡技术则不能很好地解决系统出错的情况(虽然负载平衡技术中的迁移技术可以提供一定程度的容错能力)。因此,若将这两种技术相结合,即当系统没有发生错误时,尽量让容错组中的成员执行不同的任务,以提高系统运行效率;当系统发生错误时,帮助系统屏蔽错误,使得系统能够继续运行,这样不仅可以充分发挥两者各自的优势,而且可以弥补两者技术上的缺陷。本论文在以下几个方面进行了探索,并取得了一定的创新性研究成果:(1)在分析基于主动复制容错技术和负载平衡技术现状的基础上,提出基于主动复制容错技术的负载平衡模型,并提出了几种可行的调度方案。该模型可根据系统的当前负载状况,动态调整容错组数和组成员关系,以满足系统吞吐率和可靠性两方面的要求,具有良好适应性和可扩展性。(2)在东南大学已经完成主动复制容错技术的基础之上,实现基于主动复制容错技术的负载平衡的结构模型中的一种任务调度方案。(3)深入分析容错组成员计算能力、任务分配策略、容错组冗余度和任务到达频度对系统性能和任务公平性等方面的影响。