论文部分内容阅读
近年来随着信息技术的快速发展,其在科学计算中所发挥的作用与日俱增。高性能计算逐渐成为理论分析与科学实验的得力助手和有效工具,大型工作站、服务器、集群技术等被广泛运用其中。集群技术凭借计算方面的高性价比优势,得到广泛认可。然而在研究工作中存在诸多小规模的高性能科学计算的需求,其任务逻辑相对简单但同时要求较高计算资源,且仿真频次高类型多,通常还存在多人协作的问题,常规的集群高性能方案不能很好地满足其场景。针对这类场景,兼顾高性能与高扩展低成本等需求,一个轻量的集群作业管理系统成为必要。为了满足集群系统在小规模高性能作业上的应用需求,本文设计并实现一个基于Web的轻量通用型集群作业管理系统。本文首先对科研工作中普遍存在的小规模高性能仿真进行了详尽的场景分析、需求分析,总结出包括任务作业的管理、集群状态监控、用户管理等核心功能。然后,本文从物理部署、分层逻辑、运行流程三方面介绍了总体架构方案,分析总计系统架构中的关键点。提出任务模板理念,通过模板复用达到多任务类型的快速扩展支持,大大减少了重复性复杂操作,保证了良好的扩展性。介绍了系统数据存储与消息协议、任务调度、通信中间件、Web服务等模块的具体设计方案,并通过图表以及关键代码等方式,对核心模块的实现逐一介绍,展示了用户前端的实现效果。最后,在真实部署的软硬件环境下进行相关测试,测试表明系统运行正常,满足预期功能需求,具有良好的界面交互。本文通用Web集群作业管理系统为众多小规模科研场景下的高性能科学计算需求提供了轻量级低成本方案。支持快速新增任务类型,合理的任务调度与管理,使得多机集群最大程度发挥计算能力。灵活的Web框架增强了易用性,同时对于功能维护与扩展也提供了更好的支持,在辅助理论分析与科学实验的科学计算中具有广泛的应用场景。