关键稀疏数值计算核心在国产众核架构上的性能优化研究

来源 :清华大学 | 被引量 : 2次 | 上传用户:lipeng632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机数值模拟是推动工业和科学发展的重要助力。随着计算机的发展,众核架构越来越成为高端系统的首要选择,例如目前世界上最快的5台超级计算机都选用众核处理器。由于众核核数越来越多,向量化长度越来越长,对于线程级和指令级并行的性能优化研究就显得越来越重要和迫切。在数值模拟中,用迭代法求解大规模稀疏线性方程组是其中重要一环。在求解过程中,稀疏矩阵向量乘法和预条件子是耗时最长的计算核心。这些计算核心存在严重的数据局部性、写冲突、负载均衡、计算依赖、难以向量化等问题。与硬件结合后还会存在频繁缓存判断和细粒度访存等问题。因此这些计算核心也理所当然成为了当前众核性能优化的难点和研究热点。本文面向国产众核架构,以申威26010国产众核处理器为平台,选择对稀疏矩阵向量乘法,以及两个重要的预条件子计算核心–稀疏下三角方程求解器和三对角方程求解器,在线程级和指令级并行的层面上进行细粒度的并行算法设计和优化实现。本文工作的创新主要有:·针对申威架构设计了并行稀疏矩阵向量乘法算法:算法通过将矩阵分成若干规则小块并进行合理任务分配,可以解决稀疏矩阵向量乘法所包含的数据局部性差、写冲突、负载不均衡、频繁手动缓存判断和细粒度访存问题。通过测试佛罗里达稀疏矩阵数据集中的所有2710个算例,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和55.0倍的最高加速。·针对申威架构设计了并行稀疏下三角方程求解器:首次提出了稀疏层次块布局和生产者消费者配对计算方式。前者解决数据局部性差、计算依赖、频繁缓存判断和细粒度访存的问题,后者解决利用规则寄存器通信完成不规则计算与同步的问题。通过测试佛罗里达稀疏矩阵数据集中所有2057个方阵,该算法可以获得与主核上串行算法相比7.8倍的平均加速和117.3倍的最高加速。与同时代的Intel KNC和Nvidia Kepler处理器上最新算法相比,可以在1624个算例上获得最优性能。·针对不同众核架构设计了三对角方程求解器:针对申威架构,设计了分布式循环消去法以充分利用向量化和有限缓存。针对MIC和GPU架构,设计了RegisterPCR(-half)-p Thomas算法以充分利用寄存器资源,并与循环消去类算法结合提出CR-Register-PCR(-half)-p Thomas算法以取得更好的计算与访存平衡。在5个不同架构上的测试显示,本文设计的算法均获得与串行最快算法相比满意的加速效果。
其他文献
《奔腾年代》的故事发生在美国经济大萧条期,真实表现了个人在时代大背景下的渺小,影片中的每个人几乎都处于人生最灰暗的时刻。导演加里·罗斯通过影片讲述了骑师与赛马在
<正>南书房位于故宫乾清宫西南隅。作为皇帝御用的秘书机构,自康熙亲政初创立到光绪二十四年(1898)裁撤,南书房走过了两百多年的历史。其中在康熙朝,南书房的作用尤为机要,它
传统的焊接机器人加工方式严重依赖于示教或离线编程,对于夹具的定位精度要求高,导致生产过程中柔性低、适应性差。为了增加焊接机器人加工方式的柔性,去除复杂的定位装置,达
外语教育政策研究是新时代多元文化背景下语言教育政策研究中的一个重要课题,也是世界各国及地区“国际行走”的重要语言战略规划,其发展已经逐渐成为不少国家外语战略研究的
网络文化是互联网出现后产生的一种新的文化形态,网络和大学校园的结合衍生出一种新的具有信息化特点的文化形态——高校网络文化。从内涵上,高校网络文化特指以互联网信息化
目的构建基于循证的椎管内分娩镇痛护理实践方案。方法以Stetler证据应用模式为理论框架,通过典型机构的现场观察,梳理焦点问题,系统检索文献,提取证据及推荐意见,构建方案草
自我国进入“十二五”以来,绿色、环保成为各个行业发展的重心,而塑料破碎机行业也面临着节能改造的技术问题,在这次改革中,如果不能提供高能效、高环保的塑料破碎机,很多企业将失
为研究苹果矮化砧对接穗品种枝条输导组织解剖结构的影响,探讨苹果矮化砧致矮关键部位及其致矮机理,以不同致矮能力的Y系苹果矮化砧及其中间砧嫁接植株为试材,以野生山定子为
高校创新人才培养理念是指高校对创新人才培养问题所持的具有系统性、稳定性、延续性的理性认识、理想和观念体系,从教育原理与人才培养过程来看,高校创新人才培养理念至少涉