论文部分内容阅读
本文在双机容错体系的基础上,结合集群系统的高可用框架理论,建立了适合于网络容错服务器的高可用系统模型;分析了该模型中各抽象元素的状态变化:从抽象层次阐述了双机容错管理软件的基本工作流程;提出了适用于双机容错管理软件的冗余服务设计的指导性设计原则。在此基础上,借鉴软件构件的开发思想,结合Linux系统的特点,设计并实现了双机容错管理软件的综合管理和控制台两个复合构件。文中详细地分析了控制台构件的命令集设计,给出了保证双机配置文件的一致性的解决算法。针对容错管理软件中的构件生命周期控制和系统的容错策略处理问题,在综合管理构件的设计与实现中给出了较好的解决方法。为了有效地提高网络容错服务器的可靠性,我们提出了单机自检和双机互检相结合的容错机制,构造了基于物理冗余和数据冗余的容错心跳协议,论证了该心跳协议在缩短故障检测延迟方面的优越性,描述了双机容错管理软件的规范化故障处理链。