基于深度神经网络的语音识别研究

来源 :广西大学 | 被引量 : 1次 | 上传用户:dzbycp2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别作为人机交互中最重要的技术之一,一直是学术界和工业界研究和应用的重点内容。但随着工业技术的发展和语音识别应用领域的增多,传统的语音识别技术已经无法满足人们的实际需求。利用深度学习技术和深度神经网络模型构建语音识别系统已成为当前和未来发展的趋势。基于端到端技术的深度神经网络语音识别技术是当今最为火热的方向。本文利用深度神经网络对语音识别系统进行端到端建模,分别从深度神经网络和端到端技术两个方向,对语音识别技术的各方面进行探索。进而提出了DPCNN-SA-CTC模型、DCRNN-Attention-CTC模型、DCRNN-SA-CTC模型三种语音识别模型。实现了对中文语音到拼音序列的准确预测。本文主要开展的研究工作如下:(1)对语音信号的特征和网络模型进行深入研究,熟悉语音信号的特征提取方法和相应特征的特性,探究在语音识别领域常用的神经网络模型架构,并以此提出双通路CNN模型和双通路CRNN模型,通过对语音信号的语谱图输入进行学习实验,得到了优于传统CNN和CRNN的识别效果。(2)利用注意力机制和自注意力机制对连接时序分类的端到端方法进行改进,提出了Attention-CTC端到端模型和SA-CTC端到端模型。(3)基于双通路CNN模型和双通路CRNN模型建立了DPCNN-SACTC模型、DCRNN-SA-CTC模型、DCRNN-Attention-CTC模型,通过在中文语音数据库中的实验。三种语音识别模型分别取得了77.3、77.2%和77.6%的准确率,相比于CNN-CTC模型,识别准确率相对提高了7.4%、7.2%和7.8%。
其他文献
伽达默尔与相对主义的关系是一个非常重要的问题,而这个问题的核心就在于对其“第二等级的历史主义”的理解。很多学者批评伽达默尔走向了一种相对主义,但是他在“第二等级的历史主义”中却明确指出:历史性并不是真理的阻碍而是真理的条件。其实,后来的学者之所以不能够理解伽达默尔的这种“第二等级的历史主义”,主要是因为没能正确把握到“第一等级的历史主义”与“第二等级的历史主义”的等级差异,因而总是会悄悄地回到“第
对外汉语教材的本土化是指根据学习者所在地的社会文化、教育体制、学习者特点对教材内容进行调整的过程。印尼曾编写并出版过不少本土化汉语教材,但这些本土教材存在诸多问
显著性检测一直以来都是计算机视觉领域的关键问题之一,其在视觉跟踪、图像压缩和目标识别等方面有着非常重要的应用。基于传统RGB图像和RGB-D图像的显著性检测易受复杂背景
随着数字视频的流行和广泛传播,人们对于数字视频的清晰度、分辨率、流畅性等都提出了更高的要求,视频质量评价成为一个热门的关注点。与许多信号处理应用不同,视频信号的最
强关联体系非平衡动力学中的量子纠缠问题是近期比较活跃的一个研究方向。作为量子力学的核心概念之一,量子纠缠是量子力学区别于经典力学的本质特征之一。从其提出以来,就一
高次谐波的出现极大的推动了超快光学乃至整个物理学的研究发展。它不仅为我们提供了通过合成孤立阿秒脉冲去探测更快的电子动力学的手段,也为我们通过谐波谱了解微观世界提
对连续统一体的意识,就是对时间的意识。对本文的题目做出回答所要解决的核心矛盾是:意识如何在“当下”的意识中不仅要呈现出“当下”还要呈现出上一刻的“过去”,这种“超越的过去性”如何被给予,并且与“当下”相统一?在《内时间意识现象学》中,围绕这一问题,胡塞尔经历了从批判他人到批判自己的转变。推动这一转变的是他对意识活动,特别是回忆,认识上的突破,即,对其双重结构的发现。只有在这种结构的基础之上,才能解
近年来,句子简化任务已经成为自然语言处理中重点研究的文本生成任务之一,这是因为句子简化不仅可以应用于帮助阅读能力不佳的人群有效地获取信息,还可以帮助提高其它的自然
随着电力电子设备与分布式能源的发展,直流配电网为传统的配电网建设注入一股新的活力。但直流配电技术仍处在发展初期,直流配电网的接地方式、保护方案与故障诊断技术的研究
基于物理的自然场景仿真与绘制是计算机图形学中的一个重要研究方向,在影视特效、游戏虚拟场景构建、数值仿真等领域都有着广泛的应用,近年来受到越来越多的关注。在对包含单种相的简单场景进行模拟时,直接采用力学领域的经典模型即可。但是对于包含多种相的复杂场景,需要对基本的计算模型进行拓展。本文对基本的粒子计算框架进行了改造和扩展,实现了单种物质的固-液-气三种相之间转变过程的模拟。在模拟时,将原本完整的粒子