论文部分内容阅读
基于开放式体系标准,采用通用商业产品构建的集群计算体系已在高性能计算领域得到大量采用,在全世界排名前500名的超级计算机系统中,有360个为集群体系结构,占到了500强总数量的72%[1]。集群系统是在商品化部件日益高性能、稳定可靠、并且廉价的背景下出现的,人们将服务器、工作站、甚至高档微机用高速互联网络连接起来,用以代替价格昂贵的大型机和M PP等系统。集群系统以良好的可扩展性和性价比,迅速成为构建超级计算机的首选体系结构。同时,由于各种应用系统大数据量处理,高密度的数据吞吐的需求也对集群系统的高扩展性也提出了更高的要求。将集群调度分派功能全部分布至后端服务节点,能够大大降低传统上提供调度及系统平衡负载机制的前端机的负荷,消除了系统扩展功能的瓶颈。但实时性应用苛刻的响应时限要求也对集群体系功能提出了挑战。常规的实时操作系统通过内核实时调度,集中计算资源保证了实时任务的时限。但其资源调度基于单机系统,缺乏支持多节点集群体系的功能,且多用于嵌入式体系,内存和储存空间有限,难于支持集群结构。目前通行的在中间层加入集群负载平衡调度的作法侧重于荷载均衡分布,目标是系统产出最大化,而难以满足实时任务对响应时限的要求。因此,研究针对开放式集群体系的实时调度机制,实现对不同时限任务的区分,在保证实时任务时限的同时兼顾吞吐量的需求已经变得十分紧迫。本文调研了当前集群系统的现状,分析了实时集群系统的实际需求,详细研究工作如下:①提出了三种实时调度策略,并在Linux系统平台下对实时集群系统进行了详细设计,建立了开放式的实时集群系统平台。②除此以外,专门研究了在系统超载情况下的应对策略,提出了超载情况下缓解系统压力,遏制系统性能恶化的任务丢弃机制。③在分析了当前系统节点的发展趋势并且充分考虑了Linux操作系统中CPU和IO之间的协调关系之后,本文作了顺序服务模式和并发服务模式的研究,同时也提出了一种在并发模式下的弹性控制机制,使得多个任务能够更加合理的在并发模式下共享系统资源。④对于现有RTCS系统的通信IO做出了优化分析,利用开放平台提供的IO多路复用方法提高了系统的响应能力,挖掘了系统潜在的并行性,增强了前端机的处理能力。以上各种优化设计都得到了实验的证明,其总体性能均优于原始的RTCS集群系统。