论文部分内容阅读
对科学计算处理能力的不断追求以及分布式信息系统的巨大发展,使得通过集群进行分布式计算成为一种极具吸引力的计算模式.广泛的研究表明,工作站33%到78%的时间是处于空闲的,因此为了构建高性能的集群就必须为系统提供负载平衡机制.通常情况下采用集群计算的都是运行时间长的应用程序,为了使这些程序在系统崩溃时不丢失以前的运行结果而在一组新的工作站上自动恢复,系统必须提供容错技术.所以,要建造高性能的集群系统,负载平衡和系统容错是必需的.该文正是从这种需求出发,对于实现负载平衡和系统容错的关键技术——进程迁移进行了研究,并在并行环境PVM系统中实现了基于检查点的进程迁移.该论文的工作主要包括以下几个方面:1.简要介绍了集群系统及集群中的负载平衡与容错管理,并分析了它们与进程迁移的关系从而说明了研究进程迁移的必要性.然后提出论文的主要任务,并简要介绍了国内外在这方面的发展现状.2.对目前的检查点算法进行了概括、总结和分类.进而对各种算法进行了详细的描述与分析,比较其优缺点,提出了一些改进方法.然后讨论了集群系统中的基于检查点的进程迁移机制.3.阅读PVM系统的源代码,并对其内核进行了分析.深入讨论了其实现机制中的一些重要的数据结构、关键技术等.特别对PVM系统的消息传递机制进行了详细的分析与讨论.4.详细地阐述了Linux操作系统中进程的内存映象及上下文状态.分析了实现进程检查点与映象恢复的关键问题及解决方法.5.首先分析了在PVM中实现基于检查点的进程迁移需要解决的一些问题,之后提出该文对这些问题的解决方案.然后详细阐述了进程迁移算法的设计思想与具体的实现过程,并对其中的不足之处进行了分析,提出改进的方法,并对后续工作进行展望.