论文部分内容阅读
基于深度神经网络(Deep neural networks,DNN)的映射或分类语音增强体系结构和传统方法相比,语音可懂度实现了显著提高,但是它们仍然有进一步改进的空间。因此,本文首先对基于DNN的语音增强方法中用于训练阶段优化的代价函数进行改进,提出一种基于感知相关代价函数的深度学习语音增强方法,能够有效减少训练代价函数和人类听觉感知的不匹配。接下来,通过分析传统语音增强算法的体系结构和基于DNN的语音增强方法,并将两者优势互补,提出一种基于DNN的抑制增益估计语音增强方法,能够实现可懂度性能的进一步提升。本文所研究的主要内容涉及到以下几点:首先,对基于不同代价函数的有监督学习语音增强方法进行了研究。网络输出和训练目标之间的均方误差(mean squared error,MSE)代价函数和基于人类听觉感知的评价标准是不匹配的,因此将MSE代价函数用于网络模型的优化不能保证语音可懂度一定提高;而频域加权分段信噪比(frequency-weighted segmental SNR,fw SNRseg)是一种能够反映人类听觉感知的语音可懂度客观评价标准。因此,本文通过将这一评价标准引入到网络参数训练中,提出一种基于感知相关代价函数的深度学习语音增强体系结构。通过系统的客观评价发现,在各种噪声类型和信噪比情况下,本文提出的方法和基于MSE代价函数的DNN方法相比,测试语音的短时客观可懂度(short-time objective intelligibility,STOI)分数进一步提高,同时保持语音质量不再受损。接下来,本文对不同的基于DNN的数据驱动语音增强算法进行了研究。基于映射的端到端的回归DNN语音增强模型可以有效的清除噪声分量,但是该方法产生的语音失真问题比较严重。而抑制增益参数的估计在传统的单通道语音增强体系结构中扮演着重要角色,通过将DNN方法与传统单通道语音增强框架结合,本文提出了基于单个DNN的抑制增益估计语音增强算法,并对DNN的输入进行了因果上下文扩充,以实现实时信号处理,将每个频带的抑制增益和对应的含噪语音幅度谱相乘,即可得到增强语音幅度谱。在此基础上利用多个DNN分别估计干净语音幅度谱、语音存在概率和抑制增益参数,并引入显式噪声方差估计,提出了结构化的基于DNN的抑制增益估计方法。此外,这些DNN方法都是基于上述感知相关代价函数进行训练的。最后通过对这些DNN方法的评价结果进行对比,表明和利用回归DNN直接估计干净语音的方法相比,将DNN方法嵌入到统计噪声抑制算法的体系结构中,并代替其中某些参数的估计会得到更好的STOI结果。