论文部分内容阅读
随着科学工程应用对高性能计算的需求不断提升,实现E级计算机系统成为各科技强国下一步的科研目标。由于新型使能技术尚未成熟,目前研制E级系统的基本手段仍为处理器集成。物理器件受到当前制备工艺的限制,其可靠性难以保证或提升,然而随着系统规模的进一步扩大,愈发频繁的系统故障将使得系统可靠性面临严峻的考验。主流的回滚恢复容错方法因其备份次数频繁、备份信息多、恢复开销大等不足,无法再适用于未来的E级系统。本文着重从主动容错的角度出发,同时考虑将主动容错方法与传统被动容错方法相结合,以应对在大规模系统设计与实现过程中所存在的可靠墙问题。本文首先构建了结点级层次的自治主动容错模型,接着结合被动容错方法,提出了主被动容错方式相融合的“先主动后被动”双层次容错方案。针对主动容错过程中的故障预测这一关键环节,本文构建了基于机器学习的在线故障预测模型,并分别对其处理流程以及各系统结点的功能模块框架进行了设计。系统状态信息的实时收集与处理是实现有效的故障预测的前提条件。本文设计并实现了结点状态信息的实时采集及定期汇总方法,并配置其自动执行,以支持动态、在线的故障预测过程。通过设计与实现IASF方法,本文对系统结点所收集的日志信息进行预处理,成功消除了其中的大量无用信息。基于时域及空域过滤后的日志信息,本文设计了与系统日志相关的故障特征参数,并定义了其计算方法。系统结点按照窗口滑动的方式动态地生成与结点当前状态相对应的特征参数记录,并将其应用于各结点的故障预测过程中。为简化特征参数记录中繁多的故障特征参数,本文实现了主成分分析及线性判别分析这两种参数降维方法来对故障特征参数进行筛选,从而提取出其中的关键特征。利用由精简后的特征参数记录与系统反馈信息组合形成的训练样本,本文采用ID3与C4.5这两种主流的决策树算法来实现机器学习过程。基于集成学习过程所形成的决策树结构,本文实现了规则生成算法,并得到了最简最一般的故障预测规则。以该规则作为依据,系统结点通过区分正常或异常的结点运行状态以实现故障预测。本文最后对在线故障预测过程的各处理阶段进行了测试与评估。实验结果表明按照本文所提出的配置方式与执行流程,系统能够获得最优的处理效果。