论文部分内容阅读
信息交流在人类的发展过程中发挥着至关重要的作用,语音通信是信息交流最常用的技术之一。然而,日常语音通信过程容易受到背景噪声、室内混响和回声的干扰。这些干扰将导致语音质量、清晰度和可懂度降低,从而影响用户体验感和舒适度。为了解决噪声对语音干扰造成的影响,必须在语音通信系统的前端增加语音增强模块。传统的语音增强算法主要基于噪声平稳性假设进行语音增强,此类算法往往不能很好的处理非平稳性噪声,导致了语音增强算法的提升性能有限。近年来,计算机技术迅速发展以及深度学习不断成熟,基于深度学习的语音增强技术日益受到研究者关注,相比于传统语音增强技术,在语音增强性能和鲁棒性都有了巨大提升。如何设计学习效果更优的计算目标、收敛快且收敛效果好的激活函数,成为基于深度学习语音增强算法的研究热点之一。本文以深层神经网络为切入点,研究神经网络的计算目标、激活函数对语音增强的影响,并利用唱谱识别系统对增强后的语音验证本文提出的语音增强技术在实际系统中的可靠性和稳定性。首先,本文提出了基于指数的压缩算法对Gammtone域幅度谱进行压缩限幅,提升了神经网络对计算目标的学习效果,进而提升了语音增强的效果。该算法中的Gammtone域幅度谱没有噪声与语音相互不独立的不合理假设,更接近实际情况,理论上能够提升语音增强性能;考虑到Gammtone域幅度谱算法不存在上限值,不利于深度神经网络对计算目标的学习,该算法引入基于指数的压缩算法对Gammtone域幅度谱进行压缩限幅,在预测计算目标时进行解压。仿真实验结果证明,该算法能够明显的提升神经网络对计算目标的学习效果,总体上提升了语音增强的性能。其次,为了在神经网络结构不变的情况下提升网络收敛速度和效果,本文提出局部线性可控的Tanh激活函数(Parametric Tanh,PTanh)。PTanh激活函数考虑到Relu激活函数收敛速度快,而Tanh激活函数收敛效果好,因此借鉴泰勒级数思想,融合Tanh和Relu激活函数各自优点。实验结果表明,PTanh激活函数能够提升深层神经网络的收敛速度和效果。最后,为了验证采用改进Gammtone域幅度谱算法作为计算目标和PTanh函数算法作为激活函数的语音增强算法可靠性、稳定性,本文设计了一套可以实际应用的唱谱识别系统。首先设计了唱谱识别的模型,并用纯净语音训练模型;然后使用深层神经网络对带噪语音进行语音增强处理;最后将增强后的语音进行唱谱识别。唱谱识别的识别率结果验证了本文改进的语音增强技术在实际识别系统中的可靠性、稳定性。