基于多GPU的大规模拓扑优化并行计算方法及其应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zjk130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于拓扑优化的结构设计方法已经广泛应用于多行业产品开发的轻量化设计以及结构的创新性设计等领域,其能够在满足结构性能要求的前提下降低产品成本。但是,随着优化模型规模增大,拓扑优化过程的计算量快速增长,计算效率低的问题开始突出,限制了拓扑优化技术的工程实用性。近几年,基于GPU的并行计算技术已经在数值计算各领域中被广泛使用,其在具有高性价比的前提下,通过对算法进行并行改造处理,能够极大地提升计算效率。因此,采用GPU并行计算技术可以有效缩短拓扑优化计算时间。为此,本文全面系统地研究了基于GPU的拓扑优化并行计算方法,创新性地提出了一种高效组装算法,开发出了快速线性求解器,实现了多GPU计算平台上的拓扑优化全流程细粒度并行。首先,为了解决拓扑优化有限元分析中刚度矩阵组装效率低、并行性差的问题。本文针对拓扑优化计算特点,创新性地提出了一种高效的刚度矩阵组装算法,该算法主要分为符号组装和数值组装两个部分,其中符号组装只需要在拓扑优化第一次迭代过程计算,后续迭代过程只需要计算数值组装。该算法大大减少了刚度矩阵组装时间,并且算法可并行度较高,可以在GPU设备上实现有效的并行加速计算。与常用的无矩阵法相比,没有给线性求解带来额外的计算任务,真正地提升了拓扑优化计算效率。其次,本文开发出了基于GPU的迭代求解器来对拓扑优化过程中的线性系统进行快速求解。求解器采用共轭梯度算法来实现线性方程迭代求解,并结合雅克比预处理算子来增加迭代收敛速度,提升算法稳定性。利用GPU对迭代算法实现细粒度并行,通过矢量内核利用Warp特性对稀疏矩阵向量乘(Sp MV)实现高效加速计算。测试结果表明,与商业求解器Pardiso相比本文提出的GPU迭代求解器可以实现更快求解,并且内存占用更小。然后,本文在GPU上实现了基于SIMP拓扑优化方法中灵敏度计算、敏度滤波、优化准则与密度更新三个部分的加速计算,使用TFE(Thread For Element)的计算策略来进行细粒度并行。整个拓扑优化过程通过CPU进行迭代控制,GPU负责并行计算,MBB梁数值算例表明,对于120万自由度的连续体结构拓扑优化,Nvidia RTX 2080ti GPU相对Intel i9-9880H CPU可获得超过70倍的加速比。最后,为了应对超大规模问题并进一步提高计算效率,本文实现了拓扑优化全流程的多GPU并行计算。通过自主设计的分区算法对有限元模型和计算数据进行数据分区,针对不同计算过程提出了最佳数据分区策略将拓扑优化单GPU算法移植到多GPU平台计算。使用计算统一设备架构(CUDA)结合Open MP进行编程,建立了单节点多GPU并行计算模型,其中Open MP和CUDA分别控制主机端的粗粒度并行和设备端的细粒度并行。此外,本文针对拓扑优化多GPU计算过程实现了一种基于Nv Link的设备通信优化方法,通过采用P2P传输方案大大提升了GPU之间的数据传输带宽,减少了数据通信在整个计算过程中的时间占比。最终通过400万自由度的系杆拱桥与1000万自由度的散热器两个大规模算例对本文提出的拓扑优化多GPU计算方法进行验证,结果显示,对于系杆拱桥三维连续结构拓扑优化问题,与Intel i9-9880H CPU的串行计算相比,两块Nvidia RTX 2080ti GPU并行计算的速度提升达220倍,热传导实例散热器的加速度也超过90。
其他文献
在汽车高度普及的今天,由人类驾驶员自身原因引起的交通事故频繁发生。发展智能汽车技术对于减少人为引发的交通事故有着十分重要的意义。路径规划和跟随控制技术决定智能汽车最终的行驶行为,是模块化自动驾驶系统的关键技术之一。本文基于最优控制理论提出了一种面向智能汽车的一体化轨迹规划控制框架,该框架以环境信息、车辆状态信息和车辆行驶目标为输入,以车辆方向盘转角变化率和轮胎控制力矩为输出控制量,旨在解决现有分层
通过建立四分图模型,分析新型职业农民培育的满意度,得出相应象限图。以区域内农民满意度来分析农民的培训意愿,最后基于四分图模型对4个区域的农民培育满意度进行解析。结果表明:夏邑县目前大多数的培育指标符合现阶段培训要求,新型职业农民对培育总体上持认可态度。虽然满意度较高,但同时也存在诸多问题,比如因资金匮乏造成农村电商、科学养殖、新技术扶持等培训项目效果甚微,导致新型职业农民对这些项目的满意度较低。政
近年来,伴随着现代社会的进步,电力电子技术飞速发展,永磁材料价格下降,内置式永磁同步电机(Interior Permanent Magnet Synchronous Motor,IPMSM)以其良好的性能广泛用于汽车电力传动、新能源开发利用、军民商用船舶和铁路交通运输工具等众多领域。内置式永磁同步电机因d-q轴电感明显不同而产生特有的磁阻转矩,为了能够充分地利用磁阻转矩,大多数情况下都采用最大转矩
锂离子电池作为新能源汽车的主要动力电池之一,在工作过程中受温度的影响使得其充放电性能及循环寿命变化很大,某些极限情况下甚至引发事故。因此,开展动力锂离子电池热管理系统的研究,对电池运行的经济性和安全性具有重要的学术意义和工程应用价值。本文以新型21700圆柱形锂离子电池为研究对象,分析了锂离子电池的产热机理及不同工况下的产热规律,建立了固-液相变材料及热电元件的锂离子电池热管理耦合系统模型,探究了
随着计算机技术与互联网的发展,计算机的使用已经深入人们工作、生活的方方面面。相比独立计算机,虚拟云桌面拥有成本低、管理方便以及数据安全等众多优势,从而被政府、高校、企业等选用。虽然虚拟云桌面在初始化时可以灵活地为用户配置硬件资源,但是分配策略上还是存在问题。从节约成本的角度考虑,静态分配给用户的资源有可能在某一时间段不能满足用户的要求。而如果根据峰值负载来静态分配资源就会造成资源的严重浪费。所以,
红黏土广泛分布于我国云贵高原、四川东部、两湖和两广等地区,是一种区域性特殊土。红黏土遇水易软化,易产生蠕变,工程中常采用增大土体密实度或加筋的方式来加固土体。此外,不同工程中土体的应力路径也各不相同。因此,研究土体密实度、加筋层数、应力路径对红黏土蠕变特性的影响具有重要的工程意义。为了揭示上述因素影响下红黏土的蠕变规律,进而为既有红土边坡的稳定性评估、新边坡的设计、红土路基的处理提供可靠的理论依据
随着我国对路面施工的要求越来越高,沥青的加热效率及罐体的保温性能直接影响着其工作效率,沥青只有达到设定的温度才能进行洒布作业、达到均匀洒布,进而提高洒布质量及路面的使用性能。本文以某公司生产的沥青洒布车为实验及分析对象,采用实验数据及理论研究的方法进行分析,利用Creo 6.0三维建模和ANSYS Workbench 14.5对其传热过程进行数值模拟,最后对试验结果进行验证。主要研究内容如下:本文
随着互联网技术的快速发展,在线学习越来越受到用户的欢迎。2020年新冠疫情导致大量用户选择在线学习方式,由此带来海量的学习信息。用户数量和流量是在线学习社区的核心竞争力,为用户推荐学习伙伴可以减轻在学习过程中的孤独感,提高用户的活跃度和对学习平台的黏度。因此,如何准确地挖掘出用户的学习兴趣,为其推荐学习伙伴变得尤为重要。学习伙伴推荐已有很多相关研究工作,但仍面临以下三个主要的挑战:(1)现有的公开
近年来,高熵合金(High entropy alloys,HEAs)作为一个新的合金设计理念,由于成分、结构和性能具有可调性而成为了金属材料领域中的研究热点,在航空航天、石油化工、汽车制造、电子电气等领域具有广阔的应用前景。目前,高熵合金及高熵合金基复合材料的制备工艺大多采用熔炼法和粉末冶金法,这两种制备技术的复杂性及高成本在一定程度上限制了高熵合金及其复合材料的实际应用,因此,开发一种高效快捷、
非接触式视觉测量是计算机视觉、计算机图形学领域的传统研究方向。由于受到不同姿势、穿着、位置的影响,从图像中精确估计身高、体重等人体软特征一直以来是一个具有挑战性的问题。本文基于单张图像,设计多阶段神经网络和一种新颖的训练方法,通过构建有效的中间表示形式,实现了自动化、主动式测量任意穿着、任意位置、多种姿势的人体身高、体重。在身高估计方法中,本文使用4阶段神经网络框架和新颖的中间表示形式实现从单张深