论文部分内容阅读
高性能计算(High performance computing,HPC)在航空航天、天体物理学、生物医学、气象、材料科学、核工程等科学研究和工程技术领域无一不发挥着重要作用。随着计算能力的增强,高性能计算机与应用程序的复杂性给进程间的高效通信带来了新的挑战。然而,将进程映射到处理器的默认策略通常忽略了底层的网络拓扑,使消息传递所跨越的物理距离可能特别远。由于消息在交换机间的传递会增加通信延迟,因此,进程间的通信可能会在系统互连网络中产生拥塞,导致实际通信效率偏低。拓扑映射方法被认为是优化高性能计算机上通信性能的有效解决方案。通过优化进程到空闲计算资源的映射可以提高数据的局部性,例如,合理的映射使得互相通信的进程被映射到物理距离相近的处理器上,这样能使大部分通信都集中在同一机框或机柜中,减少了长距离通信,从而使得高性能计算机的通信性能得以优化。本文致力于用拓扑映射方法优化高性能计算机的通信性能,主要贡献如下:1、并行应用的通信模式建模。优化大规模并行应用在运行过程中的通信开销,首先需要对应用的通信模式进行建模,以了解应用在运行过程中各个进程的通信情况。在建模过程中,本文综合考虑了通信类型和消息长度对通信性能的影响,提出了用通信模式矩阵来度量进程间的亲密度,并作为映射依据为后续拓扑映射算法提供了基础。2、网络拓扑结构的建模。随着高性能计算机互连网络规模的增大,节点内及节点间的互连结构变得十分复杂。在本文中,通过构建物理拓扑矩阵,实现了对高性能计算系统内各处理器间的通信代价的合理度量。特别的,建模过程中还考虑到了计算资源不连续的情况。3、对映射方案通信性能的评估建模。为了对不同的映射方案进行度量,本文提出了一种基于通信模式建模和网络拓扑建模的Costmetirc度量,将其作为映射方案的性能分析模型。该模型是一个适用于不同映射方法,不同平台,不同大规模并行应用之间进行比较的统一度量标准。4、一种新的两阶段拓扑映射算法TAMM。基于通信模式建模和网络拓扑建模,本文提出了一种新的拓扑映射算法TAMM。TAMM采用一种两阶段方式为集合通信和点对点通信的应用程序提供有效的映射策略。算法首先从所有空闲计算资源中提取一个合适的子集,构造一个初始的一对一映射方案。然后,使用第二阶段的迭代优化算法优化初始映射,进一步降低通信成本。基于四个NPB程序和两个科学应用的实验结果证明,TAMM能有效提升大规模并行应用在高性能计算机上的通信性能。