多核龙芯体系结构下BLAS库的优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:GPSCMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现行软件的结构越来越复杂,而处理器本身由于功耗的原因,性能提升的空间正在逐步缩小,另外硬件性能提升必然引入成本的增加,此时软件优化技术就扮演了更重要的角色。BLAS库作为现在最流行的线性数学库,具备高性能以及移植性较好等特点,在各种包含矩阵运算的应用中被广泛采用。可是国产的龙芯系列处理器上没有专用的BLAS库,直接移植过来的性能往往较差,不能充分发挥龙芯处理器的硬件特性,此时合适的软件优化技术在BLAS库中的应用就有着重要的意义。   针对龙芯2F以及多核龙芯3A平台,本文介绍了一些常用的针对BLAS库的软件优化技术,这些技术的综合应用可以有效提升BLAS库在龙芯上的浮点运算性能,在给用户提供更稳定更高效的线性数学库同时,有助于龙芯系统软件的推广和完善。   文章详细分析了如何最大限度使用Cache、减少内存访问次数、提高流水线工作效率、提高线程执行效率以及提高浮点指令并行度。由于BLAS库结构较为复杂,逻辑和定点操作较少,访存和浮点运算较多,本文综合利用硬件指令、循环展开、循环融合、数据分块、指令调度、运算优化、多线程支持等方法,最大限度地提升了BLAS库在多核龙芯上的性能。   与2F相比,我们使用龙芯3A的非阻塞预取指令、128位访存指令和矩阵转置模块等,可以将单线程的效率提升20%以上,再加上配合四个GS464核的OpenMP多线程设计,可以得到2到3倍的加速比。   本文的提出,对BLAS库在龙芯3A甚至以后龙芯3B上的性能优化都有着一定的帮助。
其他文献
语义Web是由Berners-Lee所提出的下一代Web,语义Web吸取人工智能、哲学和逻辑等学科的研究成果,希望对Web上信息的表示和获取方式进行重大改进,以解决目前使用Web时存在的问
21世纪是一个科技高速发展的信息化时代,数字图像作为最直观生动的载体,被普遍应用于各个领域中。因此,保护图像数据的安全性刻不容缓。图像数据具有自身独有的特点,单纯的传
SEO是搜索引擎的产物,确切的说是互联网的必然产物,它借助搜索引擎这个媒体顺势而生。SEO为了提升互联网质量,方便检索而存在。搜索引擎的快速发展,从简单到复杂,从单一到全面,逐步
文本情感倾向性研究在近些年成为众多学者关注的热点,其应用领域也在不断的拓宽。从社会舆论监督到产品口碑检测都离不开文本情感倾向性研究。本文在传统的文本分类技术基础
近年来,电能质量问题引起了电力部门和用户的高度重视。一方面由于大量基于计算机系统的控制设备和精密仪器在国民生产中的广泛应用,它们对电能质量的要求越来越高;另一方面由于大量电力电子变流系统以及非线性设备的广泛应用,使得电网中电压、电流波形发生畸变,造成电能质量的严重恶化。一方面是用户对电能质量要求的提高,另一方面却是电网电能质量的下降,它们之间的矛盾日益尖锐。因此,为了提高电能质量,首先必须能够准确
本文研究的主要内容是多目立体视觉的图像特征点匹配问题。图像特征点匹配指的是找出物体从不同角度拍摄后在不同图像上投影点的对应。为了提高图像匹配算法的精度和可靠性,
身份认证需求充斥着社会生活的各个方面,人们对身份认证的安全性和人性化要求也越来越高。传统的身份认证通过密码匹配、刷卡等方式实现,具有架构简单、成本低等优点;但存在
随着Internet技术和通信技术的快速发展,政务办公系统和电子商务系统在政府和企业中广泛应用,基于现代信息技术和通信技术的“电子政府”应运而生。政府机构使用新的政府办公
近年来,随着计算机和互联网技术的飞速发展,多媒体数据呈现爆炸式的增长,多媒体信息的存储、传输和处理变得越来越重要,尤其是图像处理相关的研究和应用。显著性检测是图像分
随着计算机网络技术以及数值仿真技术的发展,仿真技术越来越多地应用到航天航空领域。探空火箭仿真系统正是基于这一背景而提出。其中,探空火箭运载系统仿真作为一个重要联邦