基于CUDA的金刚石膜生长仿真的研究与实现

来源 :东北大学 | 被引量 : 2次 | 上传用户:hejianfeng05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并行计算将成为计算机发展的一种趋势,因为传统的CPU串行计算已不能满足发展的要求。特别是在科学计算领域,许多计算都需要大量的计算。在以往的研究中,大部分的计算都需要在高配置的小型机或计算机集群上才能完成。但是这两者的使用在时间和经济上都需要巨大的开销,一些研究者们根本没有条件或机会使用这种设备,从而导致科学研究中许多复杂问题难以解决。图形处理器(GPU)的出现为解决上述问题提供了可能。GPU具有强大的浮点数计算能力和并行计算能力,较CPU而言更适合大数据量的浮点运算。在GPU平台上进行金刚石膜生长仿真,不仅能够提高效率,还能有效减少经济成本上的投入。统一设备计算架构(CUDA)是一种基于GPU的通用并行计算架构,这种架构使GPU能够解决复杂的计算问题。它采用了比较容易掌握的类C语言进行开发,无需重新学习新语言的语法。编写出的程序就能在支持CUDA的处理器上以超高性能运行。本文以CUDA平台为基础,对金刚石膜生长仿真进行了研究。本文首先介绍了CUDA技术,包括CUDA的软硬件架构、程序结构、线程结构以及存储器模型等。随后介绍了金刚石膜生长仿真的两种方法—动力学蒙特卡罗(KMC)和分子动力学(MD)—的基本原理,并在CPU和CUDA平台上分别对其进行实现。针对KMC的特点,本文以增加数据来对全局存储器的访问进行优化,通过使用常数存储器来增加程序的运行效率,并对grid和block的维度进行合理的设计从而提高了GPU的计算效率。MD方法中分子间作用力的计算占总计算量的比重很大,原始计算模型不能完全发挥GPU的特性。针对这个问题,本文对该模型进行了改进,使用共享存储器对原程序进行优化。由于共享存储器的容量有限,本文采用迭代的方式来读入网格数据,并用叠加的方式计算分子间作用力。最后通过实验对三种实现方法进行对比。结果显示,CUDA在最好的情况下能得到75倍的加速效果。
其他文献
纠删码具有低存储开销高容错特点,可以将(k+r,k)纠删码用于归档访问频率低的数据副本,既可以保证数据的可用性,又可以提高存储空间的利用率。根据待归档数据块的存放规则,数
专家系统是人工智能研究方向的一个重要分支,是一种对特定领域的问题求解并给出解释的一种智能软件系统。它模拟的是现实中某一领域专家解决问题的方法和推理。现实中的专家
图像融合是通过一种特定算法将两幅或多幅图像合成为一幅新图像的过程。通过融合能得到比单一信息源更丰富、精确和可靠的有用信息,最大限度的获取对目标或场景的完整信息描
近几年,关于无线传感器网络的研究取得了一定的成果。但是,适合无线传感器网络的数据聚合协议仍存在着广泛的研究空间。由于无线传感器网络受节点能量的限制,而传感器节点的
现今,网络的快速发展为人们提供了大量的信息资源,人们希望在大量的信息中能够快速准确地找到自己需要的信息,在这样的背景下自动问答系统应运而生。自动问答技术(Question A
在当前网络发展中,网络安全所表现出的脆弱性越来越突出。虽然针对越来越多的网络攻击,相关研究者或技术人员提出相应的有效补救措施,如各种各样的防火墙,杀毒软件及专门针对某一
图像分割是一种底层的图像处理技术,它利用图像的某些特性,将其划分为若干个独立的有意义的相似区域。图像分割广泛应用于医学、军事、体育、农业等领域。按实现原理将图像分
目前,虚拟化技术已经广泛应用于数据中心,但其引入的性能损失仍然是制约其发展的瓶颈。即便是在单根输入输出虚拟化环境下,虚拟机的延时和带宽都逊于原生系统。对其的改善可
随着信息化的提高,数据量也越来越大,人们对存储资源的需求越来越大。本地文件系统已经不能满足人们的需求,为了解决人们对性能、容量以及伸缩性的需求,分布式文件系统应运而
双目立体视觉是通过对所获取的图像数据进行三维重建,以获取三维场景的过程。在这个过程中,需要对摄像机进行标定,同时需要对图像进行立体匹配。而立体匹配是双目立体视觉中最为