论文部分内容阅读
随着互联网的发展以及生产技术的提高,高性能计算机集群的应用范围日益广泛。在这种趋势下,集群作业管理系统越来越受到人们的关注和研究。集群作业管理系统不仅能让用户便捷地使用集群资源,而且提高了系统资源的使用率。由Adaptive Computing公司维护开发的Torque Resource Manager系统是当前高性能计算机集群最流行的批处理作业管理系统之一,然而其存在使用困难,用户登录安全性等缺陷。本论文以中山大学与广东省水利厅合作的子项目“CYB流溪河模型云计算与服务平台”为背景,阐述了该平台的用户管理、工程管理和作业管理三大功能的设计与实现。该平台系统采用B/S架构,为用户使用计算机集群资源提供了友好的使用方式,提高了系统的使用率及缩短了作业的完成时间,并对Torque系统提出了一种改进措施。本论文的主要工作内容如下:首先,根据平台提供科学计算用途的特点,提出了平台的业务需求以及功能需求,并明确了系统用例;其次,通过技术评估分析,为了实现平台的稳定性和可维护性,确定采用J2EE(Java PlatformEnterprise Edition)架构进行设计以及使用集群作业管理系统Torque;再者,由需求分析的结果,将平台设计为基于MVC模型的多层技术架构,并分为用户管理,工程管理,作业管理以及运算管理四个功能模块,说明了主要用例的实现以及总类图的设计;然后,详细定义了平台设计的类以及方法,并最终实现了平台提出的所有功能,使得用户可以方便地提交运算作业,并允许管理员对作业队列进行管理而无需掌握Torque命令,极大地方便了使用者。此外,通过对Torque系统集成的调度工具Maui的研究和分析,不仅实现了与平台系统的无缝结合,并提出了基于作业类型和计算量指标的预估时间算法,为Maui进行有效地作业调度提供了先决条件。同时,为了解决Torque系统使用作业预估时间的固有缺陷,提出了自适应作业预估时间机制,并通过实验证实了该方法的有效性。