语音识别GPU异构算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:daxing_hhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展进步,高性能计算早已经渗透到人类生活的各个领域,不仅包括互联网、大数据、云计算、人工智能等新兴领域,也涉及国防、天气预报、石油勘探等传统领域。高性能计算为计算机的底层计算提供持续的计算支撑。越来越多的领域使用的是基于协处理器系统的计算机,例如在HPC世界TOP500排名中就有很多基于协处理器系统的超算。在科研界,各大高校和研究机构普遍使用的也都是CPU和GPU协同工作的系统。特别是在人工智能相关领域的研究中,模型的训练阶段由于存在易并行化的特点,普遍使用的是CPU和GPU异构的高性能计算系统来进行训练。然而在某些研究方向上,特别是语音识别相关的研究方向。由于某些特定任务存在较强的数据依赖性和负载均衡等相关问题。并不能很好的将计算任务分配到多个线程中处理,因此使用的都是CPU串行计算的方式。本文研究方向涉及到的是语音识别领域的异构解码。语音识别WFST静态解码过程普遍是被认为比较复杂的过程。主要的思想是基于Viterbi的解码算法,但在语音识别中的解码是基于有向无环图的解码过程,每一个节点的计算都依赖于上一个节点和相邻节点的计算,存在很强的数据依赖性,加上每一层需要计算的节点个数是不确定的,节点个数从几个到几千个不等。可能会造成很严重的负载不均衡的问题。本文致力于对于语音识别解码GPU异构并行算法的研究,主要的贡献如下:1、GPU下的解码过程的建模。对解码的过程进行GPU并行化,主要是对于GPU片上解码的过程的建模,对GPU上的线程和块的动态分配。需要解决节点的个数不确定带来的负载不均衡的问题。本文利用了预分配的算法策略和动态分配组合使用的方式来解决负载不均衡的问题。对于GPU片上内存和CPU内存的传递和分配,采用的是片上全局内存为主来传递所有的节点参数,使用共享内存来传递片上的参数来减少传输过程中带来的开销。2、片上声学分数计算方式建模。对GPU上解码时计算节点声学参数进行建模。通过构建声学参数矩阵,实现对于需要计算节点的节点Id索引到节点的声学概率的GPU的片上计算。本文采用的是在片上的声学参数进行建模,实现了快速索引到节点对应的声学参数,得到对应的参数之后再接收并判断相邻节点的参数计算和判断。包括片上节点最大概率的建模,片上每一帧的所有层节点的参数计算和返回建模。3、新型语音关键词检索系统模型的建模。传统的关键词检索系统中使用的是基于WFST静态解码的关键词检索系统。使用的是传统的串行方式进行解码来获取构建关键词检索系统的Lattice。本文创新性的实现了对于WFST的关键词检索系统的GPU并行化解码,并实现了多语言声学模型的构建,提高了最终关键词检索的得分,并加了快关键词检索的速度,大大的提高了系统的实用性和可靠性。
其他文献
伴随着开源理念的赓续提高,开源社区的发展日新月异,孕育了海量的开源软件,软件资源高度分散而且良莠不齐,难以用传统单一、封闭的方式对开源软件进行评估进而检索优质软件。因此,提出一种新的开源软件排序算法是非常有意义的。本文提出了一种对软件进行综合评估的新方法,从客观和主观两个层面来综合评估软件。客观上采用文本匹配及基于隐式的结合方法,建立开源软件在软件主体社区及软件衍生社区的关联,进而量化软件在软件衍
自然语言理解是任务型人机对话系统中的基础性研究工作,对于给定用户输入,旨在把自然语言转换成计算机能够理解的结构化语义表示。自然语言理解由意图识别和槽填充组成,其中意图识别完成对用户意图的判断,槽填充完成对用户输入实体的抽取,通常使用多任务学习来同时完成两个任务,相关技术目前成为学术界研究的焦点。本文基于深度神经网络模型,对自然语言理解任务进行了研究,研究内容包含两方面:首先,自然语言理解模型通过使
近年来,开源生态与开源软件发展十分迅猛,越来越多的开发者都参与到开源软件的开发中。在开源生态社区中开发者可以自由自在地同时进行多个任务,通过互联网环境实现交互和协同。例如在Git Hub社区中开发者可以同时关注讨论多个开发任务,或者同时审阅讨论多个代码贡献。大规模群体的积极参与和多任务协同是开源生态持续成长的关键因素和重要驱动力。探索多任务协同对开发者工作效率的影响是十分有意义的研究,可以指导开发
近些年,在公共场合的视频监控设备数量飞速增长,例如机场、地铁和商场等。然而,仅依靠人类的视觉来查阅海量的视频数据有很大的困难。采用一些智能的方法让计算机来处理、分析,以挖掘视频中的信息具有很大的学术和商业价值。在本课题中,我们聚焦于计算机视觉中的行人轨迹预测和多相机下行人跟踪问题,展开相关的研究与技术实现。多相机多行人跟踪的目标是确定每时每刻每个对象的位置。行人轨迹预测是基于行人的历史观测数据对行
熔石英作为高功率激光装置的重要部件之一,其抗损伤阈值直接限制着激光器的功率水平。熔石英的激光损伤过程主要包括微米级颗粒喷溅和高速冲击波形成,这些过程具有高速、小尺寸和长持续时间等特点,造成实验观测上的困难。论文开展熔石英损伤过程中喷溅粒子及冲击波的成像探测及动力学参数自动获取算法研究,完成的主要研究工作和成果如下:1.提出了双帧激光阴影成像系统的设计方案,搭建了熔石英后表面损伤的原位双帧激光阴影成
目前,无人机已经广泛应用于军事、商业和农业等多个领域,而相对于单个无人机,无人机集群具有效率高、容错性好等诸多优势,将是未来军事以及民用方面不可或缺的一部分。然而对于大规模无人机集群的控制问题,目前的控制模型都具有各自的不足,需要面向任务具体建模。此外,有效地评估无人机集群性能也很有意义,但无人机集群涉及多种复杂性科学,对其进行试验非常困难。本文针对自组织无人机集群建模及特性进行了以下探索。(1)
自动问答,旨在让机器通过检索、语义分析、自然语言理解等步骤,对自然语言问题进行自动作答。其中的开放域问答,所提问题多为通用问题,回答问题所需的资源不限定领域,更符合人们的问答习惯。近年来,随着神经机器阅读理解技术的发展,机器对自然语言理解方面的进步突飞猛进。由于机器阅读理解和开放域问答存在共通性,所以可以利用神经机器阅读理解的方法解决开放域问答问题,但是由于中文文本开放域问答任务自身特性,其中又存
本文以28nm体硅SRAM和28nm FDSOI SRAM为研究对象,以辐照实验、建模仿真、理论分析为研究方法,探讨了低能质子诱导的单粒子效应。文章主要内容及创新点如下:(1)介绍了课题背景及国内外相关技术研究现状。制造工艺的发展使以往可以忽略的问题变成亟待解决的挑战,必须对新涌现的问题开展机理研究。(2)研究了两款SRAM对低能质子的敏感性。开展了低能质子、高能质子辐照实验,结果显示FDSOI
基于CMOS工艺的超低功耗MTP存储器,作为小容量的嵌入式非易失性存储器,具有低成本、高可靠性和超低功耗的优势。随着物联网的兴起,超低功耗MTP存储器有着越来越广泛的应用。本课题的研究内容主要包括以下三个方面:(1)分析了典型的超低功耗MTP存储单元结构,在此基础上做了改进,提出了一种MTP存储单元结构,新的单元包含一个高压管。新的单元结构与典型的单元结构相比有以下优势:具有更小的单元面积,提高了
固态硬盘(SSD)以其高性能、高性价比,逐渐成为主流存储设备。但是,一些先天的特征仍然限制了它的广泛应用:(1)随着写及擦除次数的增加,极易磨损。因此,出于可靠性方面的考虑,SSD通常都装有专用的纠删码(EC)模块。但是,EC模块仅在纯粹的数据丢失情况下才被静态使用。换句话说,在数据完好无损的情况下(这种情况是SSD中的常态),EC模块不会被使用。(2)读、写、擦除这三个基本操作之间存在巨大的延迟