论文部分内容阅读
语音增强是语音信号处理研究领域的一个重要分支。在过去的几十年中,有很多无监督的语音增强方法被提出,它们主要是通过先估计噪声的谱信息,然后从带噪语谱中将估计的噪声谱减掉以得到对干净语音谱的预测。但是由于噪声的随机性和突变性,使得对噪声的跟踪和估计变得困难。同时在传统的语音增强方法中,考虑到噪声和语音间的相互作用关系很复杂,就需要一些对信号间的独立性假设以及对特征分布的高斯性假设,而这些假设通常是不合理的。首先,传统的语音增强方法会残留很多噪声,甚至是音乐噪声。其次,语音的细节也在较大程度上受到破坏,这主要体现在对低信噪比语音的增强中。再者,极端非平稳噪声一直是传统语音增强方法中比较棘手的地方,因为非平稳噪声的突发性,使得它始终处于被欠估计状态,难以从带噪语音中去掉,可实际声学环境中,各种非平稳噪声又是大概率发生事件。最后,传统的语音增强方法易引入一些非线性失真,使得其对后端的语音识别或语音编码产生不良影响。近年来,随着深层神经网络(Deep Neural Network, DNN)在语音识别领域的成功应用,给了语音增强任务的研究人员很多启发。DNN的深层非线性结构可以被设计成一个精细的降噪滤波器。同时基于大数据训练,DNN可以充分学习带噪语音和干净语音之间的复杂的非线性关系。另外DNN的训练是离线学习的,如同人一样,它能记住一些噪声的模式,因而可以很好地抑制一些非平稳噪声。而在本论文中,我们提出一种几乎无任何假设的基于DNN的语音增强方法,并针对实际环境中语音增强问题展开了一系列系统性的研究。首先我们提出了基于DNN的语音增强方法框架,对数功率谱被用作训练DNN模型的特征。DNN则作为映射函数,可以从带噪语音中预测出干净语音。而DNN的训练是分两步进行的,即预训练和有监督训练。预训练是基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的逐层贪婪式初始化,它可以防止DNN陷入局部最优。而有监督调优可以精准地学习带噪语音和干净语音之间的非线性关系。其次,DNN是一种有监督的学习模型,凡是有监督的模型都存在如何应对测试集不匹配问题,也即如何提升系统的泛化能力。上百种类型的噪声数据被用来构建大规模训练数据,以此提高DNN模型对未见的测试噪声环境的适应性。同时我们发现,通过此种方法,系统对非平稳噪声有非常强的抑制能力。噪声告知训练也可以进一步地增强模型对测试噪声环境的预见能力。而丢弃(Dropout)法可以防止训练出现过拟合现象。另外,我们还针对DNN作为回归模型出现的过平滑问题,提出了全局方差均衡方法以提升增强的语音的听感。再者,对测试中的不匹配带噪语音需要做自适应,这个不匹配主要有:能量不匹配,噪声环境不匹配和语言不匹配等方面。因此我们分别在特征层面,提出了均值移位方法,来解决测试语音的特征分布不一致的问题。而对于噪声类型不匹配问题,我们提出了一种动态的噪声告知训练方法,即先用IBM动态地估计每一帧的噪声,然后用来辅助DNN的学习。语言不匹配问题,主要存在于跨语种测试的时候,由于不同语系发音上的差异性导致的丢音问题。我们提出了通过转移学习的方法,来自适应地解决这个问题。最后,对数功率谱上的最小均方误差是训练DNN的目标函数,但是直接去优化这个目标函数有一定困难的。我们提出了一种间接的目标函数优化方式。考虑到对数功率谱域上的各个维度间是相互独立的,因此我们把梅尔倒频谱参数(Mel Frequency Cepstrum Coefficient, MFCC)融合到系统中来,让DNN去联合优化对数功率谱特征和MFCC特征。利用MFCC的每个参数都包含了频率各个维度间的相关性来限制对对数功率谱的估计,以得到一个在频率各个维度上误差更具有一致性的特征预测。除了MFCC这种连续性信息,我们还可以用一些具有分类特性的元信息来作为对对数功率谱预测的辅助项,比如IBM,它显式地表征了当前时间频率单元是噪声主导的还是语音主导的。另外,经过聚类的噪声编码也用来辅助DNN对对数功率谱特征的学习。在本论文的最后,我们给出了全文总结,并对该课题的未来进行了展望。