论文部分内容阅读
在设备采集与传输一段音频的过程中,不可避免地会在音频中混入噪声。噪声导致音频中语音质量下降,产生无法传达有效信息的问题。为了避免由语音质量下降引发一系列问题,播放音频前需要对其进行信号处理。音频信号处理以数据类型来区分,可以分为多通道信号处理与单通道信号处理两大主要类别。单通道音频数据采集过程对设备的需求更低,采集获得数据量更小,便于在网络环境中传输存储。但若放弃多个声道信息就相当于放弃许多参考信息,信息缺失增加了去除音频中噪声的难度。本文实现的语音增强系统的核心算法是基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的语音增强算法。基于NMF的语音增强算法在一定假设下,可以解决单通道数据参考少、信息少的问题。算法使用有监督学习的思想,通过对噪声数据与语音数据进行学习,提取各个声源的特征并进行针对性处理,最终有效的提高语音的质量。NMF算法自2000年提出以来,在迭代算法、目标函数与目标约束等各个方面上有了各种不同的改进。与此同时,人们对于语音的认识也逐渐深入,例如时频域特征、语音相位信息等知识被充分应用于各种算法之中。结合理论基础发展,基于NMF的有监督单通道语音增强算法由于其可解释性强,充分利用先验知识,可以冷启动等优势,受到了研究者的广泛关注与深入研究。通过分析NMF语音增强算法的算法原理和算法缺陷,本文在严格数学分析之外,以工程视角提出了消除字典间冗余内容,保证NMF中隐含满秩条件的改进方法。本文取得的研究成果如下所示:第一,分析了NMF基本算法,展示了算法中隐含的满秩条件,并提出了在合并两个字典时满秩条件遭到破坏的问题。第二,针对几何角度提出了字典间公共空间的概念。将每个声源的特征字典视为一个向量空间,那么各个空间之间的公共部分,即称为公共空间。在公共空间中包含声音信息是可以被两个字典各自独立表达。那么在传统算法流程中,部分信息将会难以处理。本文对这一问题提出了一个基于公共空间的改进,通过去除字典间的冗余内容,将公共空间内容进行预测,进一步提升语音的质量。本文以改进算法为核心,设计了一套完整的语音增强系统方案。方案通过前端模块采集噪声样本的方式,为系统不断提供训练数据更新模型。这一设计可以使系统具有应对噪声类型变化的能力。本文最终实现的语音增强系统可以更好的处理语音增强问题。通过大量的实验验证,在本文算法在语音评分上对比传统算法有10%左右的提升,最终形成了一套对噪声变动有着一定自适应能力的单通道语音增强系统。