面向CPU-GPU异构系统的双缓冲四段流水并行机制研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:kookzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以 GPU为代表的通用加速器技术已经成为目前高性能计算领域的主流发展方向之一。随着硬件存储、计算能力的增长和大数据时代的到来,如何使用具有高存储带宽、高计算性能的带有加速器的异构并行系统应对科学和工程领域中日益增长的数据密集型应用,已经成为一个迫切需要解决的课题。目前已经有一些工作研究如何利用存储受限且无法扩展的异构加速器处理超过其存储限制的应用问题,对于一些具体应用如代数求解、聚类分析等已经提出了在CPU-GPU异构单点或集群系统上能够处理大规模问题的方法。然而,如何利用由多核CPU与多个众核GPU加速器组成的单个异构结点处理超过设备内存限制的一般性问题,目前尚无理想的解决方案。  本文提出了用于 CPU-GPU异构系统的双缓冲四段流水机制,能够在带有一个或多个 GPU加速器的单结点上处理存储规模超过单个加速器设备内存限制的计算问题。双缓冲四段流水机制使用数据分块流水计算策略,在打破单个GPU存储瓶颈的同时能够通过重叠计算与传输达到很高计算性能和硬件利用率,并且支持扩展到多 GPU。对超过单个 GPU存储规模的通用稠密矩阵乘,通过重叠数据传输与计算,双缓冲四段流水机制在单GPU系统和双 GPU系统中能够分别达到理论性能值的99%和90%以上。对K-means和TNN算法,使用双缓冲四段流水机制能够大幅度地扩展所能解决的问题规模,单个 GPU的存储瓶颈不再成为限制,当扩展至双GPU系统时,性能可以达到单GPU系统的1.9倍以上。
其他文献
在强调快速、高效的今天,越来越多的人将飞机作为出行首选交通工具。同时出行安全也是人们普遍关心的问题,因此人们对机场安全防御能力提出了越来越高的要求。浦东机场防入侵
近年来随着互联网的迅猛发展,信息技术和信息数据开始深入地影响人的生活,创造了庞大的价值,标志着我们进入了“大数据时代”。  处理“大数据”必然地对高性能产生了需求,在过
对图像进行三维重构时最重要的一环是恢复景物的深度,在目前计算机视觉研究领域中,大多数深度恢复算法都是利用聚焦图像来恢复景物深度的,如基于立体视觉的深度恢复算法和基
恶意程序伴随着计算机技术和互联网的发展而发展,对计算机信息安全构成了严重的威胁。恶意程序通过加密、加壳、变形等多态技术实现了代码的演变,这使得传统的基于反汇编技术的
代码混淆技术是对软件进行保护的一种常用手段,它通过隐藏关键行为或对代码进行复杂化处理,使得程序更加难以理解,从而增加了攻击者逆向分析的难度。程序中包含了大量的分支控制
短消息服务(SMS)与国际互联网技术的结合以及GSM调制解调器的出现和应用将给目前以提供话音服务为主的GSM移动通信网络带来新的生机。在GSM网络和计算机互联网络之间建立一个
机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS问题,可以用来评价各种不同的人工智能理论、算法和体系结构。  强化学习是一种以环境反馈作为输入的、
本文研究的重点是在多Agent技术环境下探讨强化学习技术的原理以及如何改进其学习效率并提高其算法的合理性,在此研究基础上构建基于矢量势能场的区域合作的强化学习算法和基
RFID(Radio Frequency Identification)中间件的设计与系统的多个层相关,如RFID电子标签的数据采集、标签数据管理、RFID系统安全等。对于不同层,不同的设计和实现被具体应用所
机器人足球比赛逐渐成为当前人工智能研究的热点之一,作为多Agent系统的一种理想的试验平台,它涉及多个技术领域。目前RoboCup机器人足球世界杯是国际上规模最大且具有很大影