论文部分内容阅读
高端容错计算机系统被普遍应用于银行、电信等关键领域,不同于普通的事务处理系统,它必须采用非常强的容错机制、较高的系统可用性及较强的系统处理能力。否则,系统的延误和失效可能会造成毁灭性的灾难。因此,对高端容错计算机系统进行可用性评价是一项非常重要和艰巨的任务。故障注入作为一种评测系统可用性的有效实验方法,它通过人为向系统引入故障,加速系统失效,通过收集和分析系统面对故障的反应信息,为可用性评测提供丰富的数据支持。本文对国内外应用于可用性测试的故障注入工具进行深入研究,传统的工具普遍存在两个问题:1)面向的目标系统仅局限于IA-32架构,针对64位体系结构的目标系统进行故障注入的研究非常有限;2)故障注入手段过于单一,不支持添加新的故障注入方法。针对上述问题,本文围绕着安腾架构的目标系统展开研究,设计并实现一个通过消息流动控制故障注入流程的平台。该平台将原本分散的多种面向安腾架构的故障注入工具集成到一个架构中,统一提供测试接口给评测人员,以实现应用多种方法模拟注入目标系统不同抽象层次的故障。此外,本文提出基于构件的思想开发故障注入工具,并设计一种基本的构件标准支持测试者在故障注入平台中添加新的工具,增强系统可扩展性。故障注入平台的测试环境需要覆盖各种各样的平台,增加了环境搭建的复杂性。同时手动生成测试用例延长了测试时间。考虑上述手动测试存在的问题,本文基于自动化测试框架STAF,探索建立故障注入自动化测试系统。应用程序调用、文件系统等服务,实现动态部署、测试任务控制、测试监控三个模块,搭建一个分布式的故障注入自动化测试环境。最后,本文面向HP RX6600和Superdome两台高端容错计算机,应用设计的故障注入平台及故障注入自动化测试系统进行手动、自动化测试,验证了开发系统的有效性。