基于深度神经网络的语音增强方法研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:cai67716029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强在语音信号处理系统及人工智能系统中有广泛应用。在实际环境下,传统的语音增强算法存在增强性能低、泛化性能差等问题。本文结合人耳听觉感知特性,借助近几年新兴的深度学习网络结构,研究了基于深度神经网络的单通道语音增强方法。论文主要提出以下两种算法:基于多分辨率耳蜗谱图MRCG(Multi-Resolution Cochleagram Feature)和深度神经网络DNN(Deep Natural Nets)语音增强方法,基于二维语谱图和条件生成对抗网络cGAN(Condition Generative Adversarial Nets)的语音增强算法。(1)基于多分辨率耳蜗谱图的深度神经网络语音增强算法。与传统采用短时傅里叶变换STFT(Short-Time Fourier Transform)等特征参数不同,本文算法基于Gammatone滤波器组模拟人耳的时频分析特性,提取每个时频单元的多分辨率耳蜗谱图MRCG作为频谱特征,并将每个时频单元以及前后两帧的MRCG特征进行拼接,作为包含两个隐层的DNN网络的输入特征参数进行训练,训练目标为当前时频单元的理想概率掩蔽IRM(Ideal Ratio Mask)。DNN采用均方根优化算法RMSProp(Root Mean Square Prop)来更新梯度,解决了传统网络梯度更新不稳定的问题。论文采用客观评价指标PESQ(Perceptual Evaluation of Speech Quality)和主观感受指标STOI(Short-time Objective Intelligibility)作为语音增强评价指标,实验结果表明该算法在提升PESQ上有较好的表现。(2)基于二维语谱图和条件生成对抗网络cGAN的语音增强算法。cGAN网络目前多应用于生成指定标签的图像增强和识别。本文将语音的二维语谱图作为指定标签,充分考虑相邻帧之间的关联性,提出基于cGAN的含噪语谱图到增强语谱图的映射算法。cGAN借鉴了相互对抗的博弈思想,采用原始含噪语音作为条件与随机噪声一起输入到G网络中,并且借助U-Net结构,即编码器-解码器结构进行训练,在上采样层和下采样层之间添加跳跃连接,保证了浅层特征在整个网络中的流通性。在多种噪声和不同信噪比环境下进行仿真实验后,结果表明该算法增强后的语音PESQ分值得到较大幅度的提升,同时STOI值均优于基于MRCG的语音增强方法,且对于混合人声环境下的PESQ有明显提升效果。另外,论文扩展了噪声类型,仿真结果表明该算法泛化性能较好,具有较强的鲁棒性。
其他文献
我们常讲,新闻要真实,要可信,应该说,新闻的真实与可信这两个不同的概念,表达的本是统一问题的两个不同层面.
最近我和朋友都发现,自己的浏览器常常自动登录到一个上网导航网站。本以为又中了什么流氓软件,经过了解才知道这是一个名为“李鬼卫士”的木马程序变种。该木马伪装成安全辅助软件“360安全卫士”的相关文件骗取用户点击,我也正是因为这个原因而中招的。
目前,随着国民生活水平的日益提高和经济的快速发展,越来越多的人开始关注自身的健康状况。近年来随着社会老龄化进程日益加快,青年人的生活压力越来越大,作息不规律等现象的