【摘 要】
:
神经网络是人工智能算法的一个重要分支,这种算法具有统一的结构,更换权值即可实现不同的任务,同时权值还可以通过自动的训练获得。这些特性使神经网络可以广泛应用在很多领域,如机器视觉、自然语言处理、加密解密等。但是神经网络具有运算消耗算力大的特点,因此构造一种可以高效处理神经网络算法的推理任务的加速器非常有必要。本文首先分析了卷积神经网络和神经网络加速器的基本理论,在此基础上对神经网络计算模型进行分析,
论文部分内容阅读
神经网络是人工智能算法的一个重要分支,这种算法具有统一的结构,更换权值即可实现不同的任务,同时权值还可以通过自动的训练获得。这些特性使神经网络可以广泛应用在很多领域,如机器视觉、自然语言处理、加密解密等。但是神经网络具有运算消耗算力大的特点,因此构造一种可以高效处理神经网络算法的推理任务的加速器非常有必要。本文首先分析了卷积神经网络和神经网络加速器的基本理论,在此基础上对神经网络计算模型进行分析,包括需要实现的算子和算子规格。卷积神经网络中最关键同时也是出现频率最高的算子是卷积算子及其配套的激活函数,卷积算子的加速是本加速器设计的重点。在对卷积算子的分析中,明确了出现频率较高的几种卷积规格,卷积尺寸为1或3,步长为1或2。本文随后介绍了卷积加速器的架构,包括全并行架构、数据窗口复用、Systolic架构和矩阵实现架构。本设计使用矩阵实现架构,并在此基础上添加了对多精度计算的支持,本设计支持在半精度浮点数或8位定点数下执行神经网络的推理任务。为了实现多精度推理,本文介绍了低精度神经网络推理的实现方式和相关参数的获取方式。最后介绍了多精度运算器的设计,包括多精度乘法器和多精度加法器。然后,本文根据架构设计,详细设计了存储子系统和计算子系统。存储子系统负责对主存储器的管理和为计算子系统提供数据,主存储器由两个单口SRAM存储构成,交替负责内部数据提供和外部访问服务。在提供数据方面,存储子系统根据配置生成地址,取出数据,对数据进行复用,最终将数据保存在寄存器阵列中,提供给计算子系统。计算子系统根据配置,从主存储器中取出偏置和权值,配合寄存器阵列中的数据,完成矩阵乘法和激活函数的运算。最后本文对所有设计部件进行仿真测试,所有部件均达到预计效果,和桌面CPU(AMD R5-3500X)相比,同频率下运行时间最高缩短11.2倍,本次设计达到预计设计目标。本设计通过通道复用的存储方法,解决了不同数据类型运算的位宽冲突问题,通过统一存储的方式缓解了片上存储空间的浪费问题,通过详细的部件设计,实现输入输出数据同构,消除了回写带宽瓶颈。
其他文献
一些热端部件具有结构复杂、空间狭小等特点而不易使用红外测温、丝式热电偶等常规测温方式进行温度测量,如高速转轴、航空发动机等,同时获取这些热端部件表面温度信息对于监测部件工作状态、热仿真验证等环节又至关重要。因此能够工作在较高温度区间,并且易于与异构部件集成的柔性薄膜传感器在上述极端环境下拥有重要的研究价值和广泛的应用前景。本文以复杂热端部件表面温度测试为研究背景,选取柔性哈氏合金基带作为基底,结合
在目前信息时代高速发展和科技水平发展脚步加快的趋势下,磁场传感器给人类生活带来了便利,提高了生产力的效率,在现代生活发展上也起到了显著的推动作用。在众多传感器中,基于各向异性磁电阻(Anisotropic Magnetoresistance,AMR)的角度传感器是目前在磁性传感器中研究的热门,因为其具备较高灵敏度,能在恶劣环境下工作,集成度高且成本低等优势。随着传感器制备水平的提高,目前商业化Ni
基于物联网技术发展的需求,磁传感器作为一种非接触式感知元器件,已日益不可或缺。其中,基于巨磁阻效应(Giant Magnetic Resistance,简称GMR)的GMR传感器因其尺寸小、功耗低、性能稳定、易于集成等优势,吸引着各国科研人员的广泛关注与研究。本研究针对目前巨磁阻单极开关开关场可调节范围小的问题,提出了双钉扎自旋阀结构,利用交换偏置场易于调整,以可调交换偏置场替代只能在较小范围内改
随着信息时代的到来,物联网技术越来越受到关注。磁传感器作为其应用中重要的载体之一,受到广大科研工作者的关注。磁传感器的压磁系数是一个关键指标,决定了其应用价值和范围,主要是由磁性材料的本征参数所决定。其中,磁电复合材料由于具有较好的磁电耦合特性而被作为磁传感器的磁敏组元。本论文主要研究具有良好的压磁系数的磁致伸缩材料及其与PZT压电陶瓷的复合手段,并对基于得到的磁电复合材料进行了磁敏组元的设计,从
在电磁理论中,格林函数表示单位强度空间某处的点源在一定边界条件下产生的响应(场量)。常用的具有解析形式的格林函数只有在一些特定的边界条件下才能得到,如自由空间格林函数或半空间格林函数等。对于更一般的复杂边界条件,格林函数只能通过数值方法求解得到,即数值格林函数。传统求解数值格林函数的方法包括有限元法、时域有限差分法和矩量法等。利用这些数值方法求解的数值格林函数一般表达为矩阵形式,其运算量与所需存储
近年来,由于声表面波(surface acoustic wave,SAW)传感器具有无线无源、体积小等特点被研究者们广泛关注。特别是在工业生产、航空航天等领域的极端恶劣如高温高压等环境中,SAW传感器拥有广泛的应用前景。但是,极端环境对SAW传感器的稳定性来说是一种挑战,目前成熟的SAW温度传感器最高能够工作在600°C左右,这还远不及上述应用场景下的要求。因此,需有必要研制一种能够稳定地工作于极
人工神经网络作为机器学习中的一个重要分支,随着深度学习的发展,在计算机视觉,自然语言处理等人工智能领域得到广泛应用,使用基于神经网络的方法在这些领域的表现已经逼近或超越人类。为了获得更加准确的决策,人们使用更大的数据集和更加复杂的网络结构,使得神经网络需要更长的训练和推理时间,传统通用芯片如CPU,GPU等显得效率不足。根据神经网络的特点在芯片体系结构上进行定制设计的专用芯片具有更高的效率,更加适
卷积神经网络(Convolutional Neural Network,CNN)是深度学习领域最重要的神经网络之一,被广泛地应用于图像处理和目标识别等方面。随着卷积神经网络层数的不断加深,结果不仅没有变得更好,反而出现了网络退化的问题。为了解决这个问题,He Kai Ming提出了残差神经网络(Residual Neteork,ResNet)。通过在网络中的不同层之间进行残差连接使得网络更容易实现
随着硬件计算能力的不断提升以及算法模型的快速更新迭代,人工智能技术在实际生活中拥有广泛的应用。以深度卷积神经网络(Convolutional Neural Network,CNN)为代表的数学模型在语义分割、语义识别、目标检测等计算机视觉领域有着极佳的性能表现。卷积神经网络是一种计算密集型高效算法,目前主要采用通用处理器CPU或GPU完成算法的反向训练和前向推理过程。但是,面对实际应用场景对于硬件
硬件特洛伊木马(Hardware Trojans,简写HTs)是指在芯片设计或制造过程中,在非授权情况下对原始电路进行有目的的修改或篡改,以达到在无条件或者在某种特定触发条件下实现改变系统功能,泄露机密情报或摧毁电路的目的。在Moore定律和Dennard缩放比例定律的指导下,芯片的集成度越来越高。在超大规模集成电路中,单个芯片可以容纳上亿个晶体管。随着IC(Integrated Circuit,