论文部分内容阅读
当前集群系统已经成为高性能计算体系结构发展的趋势,它极大地提高了高性能计算的发展,并逐渐从科学研究发展到其它各领域。在实际应用中,集群的软硬件资源相当丰富,这些资源需要进行实时监控以帮助集群达到负载均衡以及调度任务的顺利完成,还要及时获得软硬件的故障信息并加以解决,确保系统的稳定运行。 论文首先介绍了计算机集群及其相关技术,以Platform公司的集群管理软件LSF为例,阐述了负载均衡软件在集群管理中的重要性和存在的问题,进一步说明了实时监控软件对于集群系统的负载均衡的重要性;其次,对当前环境下集群监控管理技术进行了分析,阐述了当前系统中存在的问题;再次,详细介绍了基于LSF和Cacti网络流量监测图形分析工具实现的一个基于Web的计算机集群远程监控管理系统RTM的设计和实现过程,并根据系统的功能组成,对主要模块:用户登录管理模块、集群系统监控管理模块、计算作业监控管理模块、集群资源图形绘制模块、集群资源告警提示模块、集群配置文件修改更新模块和应用服务监控管理模块进行了重点分析。最后,对基于Web的集群监控管理系统进行了测试和数据分析,总结了系统中存在的不足之处并寻求改进方法,提出今后的研究方向。