基于深度学习的低资源语音识别技术研究

来源 :解放军信息工程大学 | 被引量 : 1次 | 上传用户:xh7304
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着连续语音识别技术的不断发展,人们逐渐对语音识别提出了更高的要求,低资源训练数据条件下的语音识别作为一种典型的受限条件下的语音识别,因其识别率低、应用价值大而成为了当今的一个研究热点。低资源条件对特征提取和声学模型两个模块影响极大,通常使用深度学习(Deep Learning)技术提升低资源语音识别(Low-resource Speech Recognition)系统的性能。如何有效提升深度学习模型的训练效果,以及如何对模型进行改进,是亟待解决的关键问题。针对这些问题,论文利用深度学习技术,对低资源语音识别系统中的特征提取和声学建模展开研究和改进,取得三点研究成果:(1)提出一种新颖的基于深层神经网络(Deep Neural Network,DNN)的特征提取方法。针对级联(Tandem)系统中,提取瓶颈(Bottle-Neck,BN)特征时,BN层的存在降低了DNN分类准确率这一缺点,提出一种不改变DNN训练结构的高层特征提取方法。首先训练一个不包含BN层的DNN,然后利用非负矩阵分解(Non-negative Matrix Factorization,NMF)算法对隐含层权值矩阵分解得到基矩阵,作为新形成的特征层的权值矩阵,在该层不设置偏移向量的情况下,通过数据前向传播使用该层的线性输出作为一种新的低维高层特征。实验表明,该特征性能稳定,且适用于不同的识别任务。当使用训练数据相对充足的英语语料时,该特征表现出同BN特征几乎相同的识别性能;而在只有1小时训练数据的低资源条件下,基于该特征的识别系统明显优于DNN混合识别系统和BN-Tandem识别系统。(2)针对低资源训练数据条件下DNN特征的识别性能急剧下降的问题,提出两种适合于低资源语音识别的DNN特征提取方法。首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对低资源BN-DNN的辅助训练,针对BN层位于共享层的特点,引入dropout、maxout、rectified linear units(ReLU)等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次,为了进一步改善多语言训练时的DNN特征的性能,提出一种将凸非负矩阵分解(Convex-Nonnegative Matrix Factorization,CNMF)算法与多语言训练相结合的低维高层特征提取方法:首先使用多语言训练具有共享层结构的DNN,然后针对某一共享层的权值矩阵进行分解,使用得到的基矩阵构建新的特征提取层。基于1小时训练数据的低资源捷克语实验表明,在26.7小时的英语语料辅助训练下,当使用dropout和ReLU时,识别率相对基线系统提升7.0%;当使用dropout和maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%。而基于CNMF的低维特征适用于不同的DNN训练方案,该特征在单语言训练和多语言训练的两种情况下的识别率都优于BN特征,且在多语言训练时优于DNN混合识别系统,提升幅度从0.8%至3.4%不等。(3)提出一种通过融合多流特征改进低资源卷积神经网络(Convolutional Neural Network,CNN)声学建模的方法。CNN声学模型在训练数据量充足的语音识别任务中取得了优于DNN声学模型的识别率,然而在训练数据不足的低资源条件下,存在网络参数训练不充分的问题。为了利用有限的数据中更多的声学特征信息进行建模,首先对低资源训练数据提取多类特征,然后各类特征构建并行卷积子网络,最后通过全连接层进行融合,得到一种新的CNN结构。实验证明,并行卷积子网络可以将不同特征空间规整得更为相似,且相对传统多特征拼接方法和单特征CNN建模方法分别提升了3.3%和2.1%的识别率;当引入多语言训练时,识别率则分别相对提升了5.7%和4.6%。
其他文献
换热设备被广泛应用于石油、化工、食品、制药等多种领域生产过程中,其用途之一是余热的回收和利用,提高换热设备的换热性能可以改善我国余热利用率较发达国家偏低的现状,同时也是实现节能的重要途径之一,其中套管换热设备结构简单、适用范围大,换热面积增减方便,因此本文通过添加石墨烯纳米颗粒以及改变内管内侧流体换热形式强化了套管换热设备的传热性能,并对强化传热过程进行了仿真模拟与实验研究,同时对管内外均有相变的
自20世纪以来,项目反应理论(IRT)受到越来越多的海内外学者和教育工作者的重视与关注。在教育、心理及医学的实际测量中,多维结构的测试普遍存在,这无疑促进了多维项目反应理论(multidimensional item response theory,MIRT)的发展。在项目反应理论框架下,基于测试得分,获得被试准确而可靠的推断的前提是具有合适的参数估计方法。当项目参数已知时,可通过最大似然估计方法
PPP模式,作为一种政府与社会资本的合作方式,是国际范围内基础设施及公共服务供给方式改革中的一种制度创新。旨在为政府与社会资本提供长期的合作关系,提高公共服务水平。近年来,PPP在中国发展飞速并得到了决策层的力推。然而PPP运用节奏加快的同时,制度供给的匮乏和规则架构的不合理却为其应用前景蒙上一层“阴霾”。PPP模式的核心为PPP协议,研究PPP协议无疑对促进PPP模式在我国的运用及发展具有极大裨
近年来我国城市轨道交通行业快速发展,该行业在建设过程中需要对建设流程和设计方案进行细致的管理。当前,相关项目在项目决策、项目实施和项目运营等方面的管理较为传统,轨
本实践报告以作者完成的一场近视矫正讲座的交替传译为素材。在巴黎释义派理论指导下,作者完成了这次口译任务,并针对口译实践中出现的问题找出相应解决策略。巴黎释义理论作
棉花黄萎病是目前造成棉花减产的主要病害之一,因防治较为困难,故有棉花“癌症”之称;中国农业科学研究院采用RNA干扰的方法培育出了转Vd GARP1-RNAi基因抗病棉花Vd G1,其靶标为造成棉花黄萎病大肆流行的大丽轮枝菌(Verticillium dahliae)。转基因作物在推广种植前需要对其进行安全性评价,从而分析其是否适合种植。抗病棉花Vd G1为研发的新品种,对生态环境的安全性尚未确定,
党的十八大以来,以习近平同志为核心的党中央高度关注农业、关心农村、关爱农民,乡村振兴战略背景下,返乡农民工成为关键人才。习近平总书记曾强调,“人才振兴是我们乡村振兴的基础,要创新乡村人才工作的体制机制,充分激发乡村现有的人才活力,把更多城市人才引向乡村进行创新创业。”从过去的进城打工,到现在流动回乡创业,我国农民工的就业方式正在这个时代的变化风潮中悄然改变着。据农业农村部最新统计显示,我国的返乡创
无线传感器网络(Wireless Sensor Networks,WSN)作为物联网和大数据的主要数据来源,已被广泛应用于环境监测、智能交通等各大领域。然而传感器节点能量有限,且大部分能量主要用作节点间通信,路由算法的优劣决定传感器网络是否稳定,设计高效的路由算法从而提高网络寿命是目前WSN的重点研究方向。基于模糊逻辑(Fuzzy Logic,FL)的路由算法和基于粒子群优化(Particle S
本交替传译报告选用的材料为笔者做过的一次角膜塑形术讲座现场交替传译。本报告以吉尔的口译精力分配模型为指导,结合现场交传过程探讨译者双语能力、记忆因素、笔记因素以
对于语言的人际功能,国内外许多学者已从不同的角度进行了多年的研究。系统功能语言学着重于词汇语法层面,以小句为分析对象研究其人际意义,其研究领域广泛而有深度。然而,它