论文部分内容阅读
语音增强是语音信号处理领域的一个重要分支。语音是人类用于交换信息的最便捷的手段,但是在各类语音通信、人机语音交互的场景中,语音信号经常受到各种噪声的干扰。语音增强作为避免或减少噪声干扰的方法与手段,受到了广泛地研究。过去的几十年里,大量的无监督的语音增强方法和有监督的语音增强方法被相继提出。较早提出的方法中,一般是先估计噪声谱,再从带噪语音谱中减去估计的噪声谱,从而获得增强后的语音谱。早期的方法经常假设语音和噪声是相互独立且服从高斯分布,但是噪声往往是随机的、非线性的且非平稳的,导致这些方法的效果不佳,如会残留许多噪声或者引起失真。近年,随着深度学习技术的发展,并且深度学习在语音相近领域的成功应用,基于深度学习的语音增强研究也正成为热点研究。在基于深度学习的语音增强系统中,深度学习模型被设计成一个精细的降噪滤波器或者叫生成器。同时,在大量平行语料的训练下,模型可以充分学习带噪语音和干净语音之间的复杂的非线性的函数关系。另外,模型训练一般是离线的,它能提取一些噪声的特征,因而它可以较好地抑制甚至滤除一些非平稳噪声。鉴于深度学习模型在语音增强中较好的性能,本文开展了大量的研究。首先,将深度降噪自动编码器(Deep AutoEncoder,DAE)用于语音增强的任务,并对该模型进行了一系列的研究;然后,将深度自动编码器与生成对抗网络(Generative Adversarial Network,GAN)相结合,提出了AECGAN网络并应用于本文语音增强中。基于DAE的语音增强方法,先将时域语音信号加窗分帧,再进行短时傅里叶变换,然后将多帧语音谱输入到模型中,输出单帧语音谱,并将输出语音谱进行波形重构,得到增强后的时域语音信号。该模型使用有监督的方法训练,使用L2正则化、Dropout、批标准化(BN)等方法泛化模型,使模型更具鲁棒性。实验结果表明,基于DAE的语音增强方法性能优于传统方法,提升语音质量的同时,还能提升语音可懂度。改进的基于AE-CGAN增强模型是一种端到端的时域语音增强模型,该模型的输入是时域语音信号,输出同样是时域语音信号。该模型无需对语音与噪声间的关系进行假设,无需人工提取语音特征,而是通过端到端的方式自动提取语音特征。AE-CGAN是一种结合自动编码器和生成对抗网络的综合学习框架,使用卷积神经网络,通过卷积网络强大的特征提取能力,将干净语音信号从带噪语音信号中提取出来。模型使用半监督的学习方式,并且联合显式损失函数和隐式损失函数,进行对抗式训练。为了使网络更轻更快更深更宽,模型使用全卷积网络、批标准化(BN)、Parametric ReLu激活函数,同时为了防止梯度爆炸,训练时加入权重裁剪(Weight Clipping),使网络参数保持在一个合理的范围之内。实验结果表明,基于AE-CGAN的语音增强方法优于传统方法和DAE的方法,去噪能力更强,经过处理后语音质量和可懂度大幅度提升,听起来比较饱满,不低沉,更为自然。