GPGPU非一致控制流的优化技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：junbobo126

【摘要】

：

目前GPU因其强大的计算能力已经被广泛地应用到通用计算领域中,为了有效地管理和执行众多的线程,它采用了SIMT的执行模型。然而,这种模型可能会使程序的执行产生非一致的控制

【作者】

：

杨耀华

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

SIMT 非一致控制流重组阈值额外开销性能

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前GPU因其强大的计算能力已经被广泛地应用到通用计算领域中,为了有效地管理和执行众多的线程,它采用了SIMT的执行模型。然而,这种模型可能会使程序的执行产生非一致的控制流,限制了性能的提升。针对这个问题,人们提出了重组的优化方法,将一个或多个Warp内执行相同分支路径的线程组合在一起,构成一个新的Warp,从而更有效地开发出线程级并行。但是通过分析发现,这类方法普遍存在着一些不必要的重组,引入了额外的开销,限制性能的进一步提升。本文针对上述问题,对重组的开销来源进行了分析并提出了一种轻量级的优化方法——部分重组。它通过设置阈值的方式来控制重组的范围,在保证较高重组效率的前提下,减少了对包含活跃线程数量较多的Warp进行重组,避免因线程重组引入过多的开销。本文的主要工作包括:首先我们对目前重组机制存在的问题进行了分析。GPU为了减少硬件设计的复杂度,通常按照体的方式对寄存器进行组织。当线程按照静态映射的方式执行时,并不会产生任何的影响。然而在进行重组操作后,可能会出现多个线程访问相同寄存器体的情况,这就产生了寄存器的体冲突,导致流水线停顿。同时,重组可能会导致Warp的拆分,使得访存事务增多,降低了内存访问的效率。通过分析发现,这些开销往往是对包含活跃线程数量较多的Warp进行重组产生的,它会抵消掉一部分重组带来的收益,甚至可能会降低程序的性能。为此我们提出了部分重组的方法,它通过设置阈值的方式来控制重组的范围,避免引入额外的开销。通过对重组范围进一步的分析,发现不同的测试程序在部分重组中所取的最佳阈值是不同的。为此我们又提出了一种能够动态调节阈值的通用部分重组框架,它通过对程序执行时的性能参数进行动态采样和分析,指导阈值的调整。在对齐Warp的处理上,采用了重映射的思想,将线程均匀的分布到各个执行通道上,减少了重组引入的开销,加速程序的执行。最后,我们在GPGPU-Sim上对上述机制进行实现与验证。实验结果表明,部分重组能够在保证重组效率的前提下显著减少不必要的开销,相对PDOM性能平均提升12%,最高达到27%。已有的Lane-Aware重组虽然也能实现不错的性能提升,但是硬件设计开销也是不容忽视的。在重映射的测试中,针对特定的程序,平均能够获得9.1%的加速比,最高提升近20%。总体来说,本文所提出的部分重组机制能够获得不错的性能加速,它的优势主要在于相对简单的硬件设计,而且它可以很容易的集成到目前已有的重组方法中,通过显式的阈值调整可以实现在PDOM和完全重组之间的切换,大大提升了它的通用性。

其他文献

基于双极化SAR图像的海表面风场反演研究

海面风作为海洋与大气相互作用的主要纽带,调节和控制着海洋与大气的运动变化过程,与海洋中几乎所有的海水运动直接相关。因此,准确地获取海面风场信息,对推动海洋技术与经济

学位

合成孔径雷达海面风场反演双极化

基于支持向量机的实时交通标志识别系统

随着社会经济的发展,道路交通堵塞,拥挤,安全等已经成为社会普遍关注的问题,交通标志实时识别系统可以加强车辆、道路、驾驶员三者之间的联系,从而形成一种保障行车安全、解

学位

交通标志图像预处理HOG/LBP特征支持向量机

基于MIMO雷达的低空目标检测与波达方向估计

低空目标检测与参数估计是现代雷达领域一直以来没有很好解决的疑难问题,其主要难点体现在:存在多变的强地杂波、复杂的电磁环境的干扰以及目标的强机动性和低雷达反射截面积

学位

正交MIMO雷达低空弱目标恒虚警检测四阶累积量平均值矩阵降维投影变换降维快速DOA估计

游戏控制器功能参数检测系统开发与实验研究

游戏控制器作为一种用来控制视频游戏的设备,已经进入了大多数掌机游戏爱好者的生活。技术更新日新月异,人们的生活明显改善,游戏玩家对游戏控制器的品质和体验要求也越来越

学位

游戏控制器自动化检测工业机器人图像处理机器学习

基于葫芦脲超分子结构对模拟印染废水中阴、阳离子染料的去除研究

印染工业高速发展为我国带来巨大经济效益、满足人们对纺织品各方面的需求的同时也对环境造成了严重破坏,产生了大量高盐、高碱、高色度、难处理的印染废水,不仅大大降低水体

学位

葫芦[n]脲阴、阳离子染料主客体包合吸附与絮凝

面向LICOM3系统的I/O并行优化研究与实现

近些年来,全球变暖在灾害的频度和强度方面的影响均有所增加,发展高精度的地球系统模式对于预测恶劣气候、减少极端天气带来的负面影响具有重要意义。随着模式的精度越来越高

学位

地球系统模式LICOM3并行I/O优化ADIOSMPI-IO

基于权值选择的多雷达多目标粒子滤波检测前跟踪技术研究

预警系统多采用雷达组网系统对多目标进行联合检测跟踪,当一个或几个雷达的探测效果不佳时,直接进行融合,可能会降低整体探测效果,导致目标丢失或者发现大量虚假目标,甚至远

学位

粒子滤波检测前跟踪多雷达粒子权值粒子群重采样

无氢条件下精制粗糠醛到2-甲基呋喃于硅酸铜衍生的Cu0/Cu2O·SiO2位点

纤维素中的多聚戊糖成分进行酸处理后可以得到糠醛,然后由糠醛衍生得到的2-甲基呋喃具有优良的燃烧性能且可作为汽油添加剂。在本论文中,我们报导了在完全无外源气氛条件下,

学位

糠醛2-甲基呋喃选择性加氢脱氧甲醇供氢Cu/SiO2催化剂

杂波分布未知时的机载外辐射源目标跟踪

机载外辐射源雷达作为一种重要的被动雷达,具有成本低、隐蔽性好、抗干扰能力强等优点,对提升我方军事防御系统探测性能具有重要意义。但机载平台的移动使探测环境的地海杂波

学位

杂波密度估计概率假设密度机载外辐射源雷达交互多模型

基于可编程超材料的波束合成与目标探测

信息超材料天线是一种全新的天线体制,它通过编码调控各个阵元的特性以实现对电磁波的实时调控,从而可以实现对目标的实时探测与分析。相比传统的相控阵天线,这种新体制的天

学位

信息超材料波束合成空间傅立叶变换谱估计超定方程求解

GPGPU非一致控制流的优化技术研究

其他学术论文