【摘 要】
:
近年来,基于卷积神经网络(Convolutional Neural Networks,CNNs)的深度学习算法在计算机视觉和图像识别领域的成功应用,很大程度上改变了传统的机器视觉框架,成为实现人工智
论文部分内容阅读
近年来,基于卷积神经网络(Convolutional Neural Networks,CNNs)的深度学习算法在计算机视觉和图像识别领域的成功应用,很大程度上改变了传统的机器视觉框架,成为实现人工智能技术的一个核心算法。CNN算法简单、可并行性高,但数据量大,尤其随着深度学习应用的不断发展,网络的规模愈加庞大,导致运算量激增。传统的软件加速方法已经难以满足应用对CNN算法性能、功耗和实时性的需求,研究其硬件加速及优化实现具有重要意义。本文基于并行存储技术对CNN核心算法—卷积层算法的硬件加速展开研究并设计实现了一款专用加速器,主要工作和创新点如下:首先,分析CNN卷积层算法的并行性和数据重用性,确定了加速器采用图间并行和图内并行的机制;通过建模理论分析了片上缓冲容量和片外访存带宽的关系,为片上并行存储设计提供了理论指导;给出了CNN加速器的整体设计方案;设计了具备了卷积核缓冲和输出缓冲的专用运算单元,使运算和访存流水化,充分保证了其性能;设计了一种支持跨步按块访问无冲突的两维缓冲器,满足了加速器并行访存需求,提高了数据重用率和乘加单元的利用率;采用AXI总线协议,设计了标准的用户使用接口,提供库函数供用户调用,增加了加速器的通用性。其次,完成了CNN加速器的RTL代码设计,并搭建基于Matlab激励生成的模拟验证平台,对CNN加速器的功能进行充分的验证,已通过数万组测试激励代码验证,功能正确。基于40nm工艺对设计进行了逻辑综合,结果表明加速器达到了1GHz的工作频率,总面积4.51mm~2,片上缓冲192KB,功耗为985mW。采用实际应用和主流的CNN算法模型对加速器进行性能测试,结果表明,绝大多数情况下算法的访存延时能够完全隐藏在运算过程中,PE的效率超过90%,运算能力超过100 GMACs;与现有研究相比,同等性能的情况下本文设计的加速器硬件开销更小。
其他文献
我国刑法理论认为,犯罪的不作为必须以负有某种特定义务为前提,由于我国刑法对不作为犯罪目前没有明确的规定,司法实践中对常见的“夫妻间不履行救助义务、见危不救导致死亡
研究背景随着社会主义现代化进程的不断推进,实现卫生事业监管的法治、规范、精细,是形成专业高效、统一规范、文明公正的卫生执法监督工作的有力保障。2018年,国务院办公厅
现如今,多地采用特许经营模式大力开展基础设施建设,其中的一些大型基建项目,资金需求大,在此情况下,特许经营收益权质押融资方式在实践中被广泛运用。与此相对的,是实践中特
光子晶体于1987年第一次被提出,不同的介质周期性排列而形成光子晶体结构,这种结构能够形成光子带隙而调控光的传播。研究表明,影响光子晶体的光学性能的因素主要有两个:光子
目的:构建乙脑病毒(JEV)野毒株SA14包膜蛋白K279M突变病毒感染性克隆,拯救病毒,并用动物实验探讨JEV包膜蛋白279位氨基酸突变对病毒神经毒力的影响。方法:以JEV包膜蛋白cDNA为模板,用重叠延伸PCR技术与分子克隆技术构建含有rJEV SA14包膜蛋白279位氨基酸,由赖氨酸(K)突变为甲硫氨酸(M)的全长cDNA质粒pACNR-JEV SA14(K279M),并以其为模板体外转录获
SonoVue微泡从临床疾病诊断拓展至治疗引起了诸多研究人员的兴趣。为了平衡治疗效率和生物安全性,深入理解声学参数和SonoVue微空化特性的关系至关重要。本研究首先分析了声
光学频率梳简称光频梳,从频域上看是由一系列严格等间距的谱线组成的梳状谱,可应用于计量学与光谱学。传统光频梳是由锁模激光器产生的,时域对应于一系列重复周期高达飞秒量
有声读物作为一种新兴的文化载体,因其内容涵盖广泛、获取限制较少、短时高效的知识输入等特点受到越来越多听众的青睐,成为一种全新的“阅读”方式。在新媒体时代,作品的复
云计算提供了优质的服务和便捷的管理,于是越来越多的敏感数据被存储于云服务器中。但是云服务器会揣测所存储的信息并泄露给未授权用户,从而引发存储数据的安全问题和隐私问题。因此,敏感数据在上传至云服务器之前必须先进行加密,但是密态的存储形式给数据的检索带来了困难。可搜索加密的出现使得用户可以直接通过加密关键字检索云端的密文数据。现存的方案或者只支持精确搜索,或者需要建立一个庞大的索引来支持模糊搜索,索引
信仰是当代大学生在踏上人生道路之初的一个重大问题。正确的、科学的信仰在现实中对个人、国家和民族所具有的精神力量是不可估量的。对于当代大学生来讲,如果选择理性、科