论文部分内容阅读
机群系统的优点是可扩展性好,但随着机群系统规模的增大,结点数目的增多,机群系统整体的可靠性会相应降低。因此提高机群系统可用性的软件将成为机群操作系统中必不可少的部分。特别是故障恢复手段对大规模系统和长时间运行的应用显得尤为重要。另外,用于支持不同应用管理的服务器聚集系统涉及的用户数目庞大,因此高可用性对服务器聚集系统具有格外的重要意义。可以说,机群的体系结构为机群高可用研究提供了可能性,服务器聚集系统在软件方面提出机群高可用研究的必要性,高可用性技术和机群技术的结合是近年来计算机领域的一个重要研究方向。本文的目的就是研究机群系统的高可用性,具体的方法是首先分析机群系统的特征以及服务器聚集软件应具备的性能,然后在分析高可用系统理论及关键技术的基础上,对双机高可用系统进行研究与改进,为曙光3000超级服务器设计一个实用的机群高可用系统,继而对其可用性进行了评价。首先,利用服务器聚集的技术可以聚合Web、Mail、BBS、NEWS、FTP、数据库、科学计算、文件、打印、磁带和海量存贮等服务器的功能。最适合做服务器聚集的体系结构是机群。采用冗余部件,通过系统备份、监测与恢复实现高可用性是机群操作系统必须具备的性能。我们在给出了高可用系统的概念和当前高可用系统的研究现状的基础上,给出了高可用系统的可用性分析方法和可用度计算公式,分析了提高系统可用性的两种途径和实现高可用系统的五个关键问题及一般的实现策略;其次,我们对双机高可用系统可用性进行分析,并研究了双机高可用系统的实现策略,描述了曙光双机高可用系统的软件、硬件结构、应用状态转换关系以及实现的关键问题。然后,我们设计并实现了一个作为基于机群结构的曙光3000超级服务器软件之一的机群高可用系统。在介绍了曙光3000软件和硬件结构的基础上,给出了一种集中式的机群系统高可用综合实现策略,并就实现中的“心跳”侦测可靠性、负载平衡策略、资源管理、动态配置、灵活的事件处理、状态一致性、单一系统映像、虚拟机群与虚拟服务等关键问题进行了详细的描述。最后,我们对机群高可用系统做出了可用性评价。我们先采用分析法,即运用马氏过程分析机群系统中的高可用性,建立基于生灭过程的机群高可用模型。然后,本文提出了研究机群高可用系统可用度的仿真算法,为评价机群系