论文部分内容阅读
环境噪声是语音处理设备如语音识别系统、说话者辨识系统中广泛存在的一个负面因素。这些系统在没有噪声的环境中具有非常好的语音处理效果,但在实际的噪声环境中,语音处理性能会明显下降很多。剔除语音中的背景噪声是语音信号处理中具有挑战性的问题。由于自然环境中,噪声具有多样性以及语音信号本身的复杂性,语音增强算法也因环境的不同而不同。语音增强算法的分类方法有很多,依输入信道数量分类,可有单通道语音增强算法、双通道语音增强算法和多通道语音增强算法;依信号处理的域分类,有时域语音增强算法和频域语音增强算法;根据算法的类型又可分为非自适应语音增强算法和自适应语音增强算法。单通道语音增强算法主要应用在如移动通信、助听器等场合。通常,单通道系统利用了语音信号和噪声信号的不同统计特性,在噪声为非平稳时性能不好,同多输入系统相比,它占用资源较少。但是,如何得到性能良好的单通道语音增强算法是这一领域所研究的最困难的问题之一。目前,出现了许多针对不同问题的单通道语音增强算法。针对语音增强算法由固定长度分帧所导致的语音过渡阶段和清音部分增强效果差的问题,本论文提出了基于清浊音分割算法的语音增强算法。该算法首先利用清浊音分割算法将语音信号中的清浊音分离出来,然后对分离后的清浊音谱幅度分布进行估计,找到更接近于清浊音谱幅度的分布函数,根据清浊音的不同使用不同的谱分布函数进行语音增强。计算机仿真实验验证了这种基于清浊音分离处理算法可有效地提高信噪比,改善语音过渡阶段的增强效果以及清音部分的增强效果。基于统计模型的语音增强算法是从带噪语音信号中估计出纯净语音信号。这类算法通常要求准确知道纯净语音信号和噪声信号的联合统计量,而且要求具有易理解的失真度量方法。若语音信号和噪声信号是统计独立的,则需要准确的知道纯净语音信号和噪声信号的概率分布。但实际情况是我们既不知道语音信号和噪声信号的统计量也没有最好意义上的失真度量方法。所以,从理论上讲应首先分别训练得出语音信号和噪声信号的统计量,也就是需要一种最优化算法来获得信号的统计模型,然后将该统计模型结合目前能使用的失真度量以得到语音增强算法。语音增强算法中通常假设语音信号统计独立,短时谱幅度服从瑞利分布。许多语音增强算法致力于找到更为准确的语音信号统计模型来改善语音增强算法。一些统计模型,如超高斯模型如伽玛分布、拉普拉斯分布以及广义超高斯分布已被证明要优于高斯模型。尽管对基于这些模型的语音增强算法研究取得了一些进展,但单一的分布函数并不能够很好模拟语音信号真实的分布柱状图。针对这一问题,本文使用了一种超高斯混合模型为语音信号谱幅度建立模型,采用EM算法对超高斯混合模型中的参数进行估计。这种混合模型能够很好逼近语音信号短时谱幅度柱状图。将该混合模型用于语音增强算法中,得出语音信号短时谱幅度的最小均方误差估计,通过分析该语音增强算法的增益曲线可知超高斯混合模型能够改善语音信号能量较小处的语音增强性能。很显然,根据语音信号自身的产生原理以及非平稳特性,单一的某一分布并不适用于所有的语音信号。因此改善语音增强算法远非用一种模型来代替另一种模型这样简单,需要更为灵活的模型或模型估计算法以适应语音信号自身的特点。隐马尔科夫模型是一种很好的模型估计算法,目前广泛用于语音识别问题中。尽管偶而会应用于语音增强问题中,但到目前为止,它并没有得到很好的发展,或者只用于噪声信号的模型估计时,这里假设不同性质的语音信号处于隐马尔科夫模型的不同状态,训练纯净语音信号得到的参数模型应能适应语音信号的特点。本文在参数估计过程中对语音每一帧的联合概率做了一定程度的约束处理,避免在训练语音谱幅度的过程中出现无穷大或零值,从而得到了相对合理的语音谱幅度分布估计。论文提出了建立在该模型基础上的语音增强算法。由于用基于信号统计模型的语音增强算法处理语音信号无法判断每一帧带有噪声的信号确切属于隐马尔科夫模型的哪一种状态,在论文中引入自适应方法来选择一种最适合该帧带噪语音信号的谱幅度分布模型。该算法提高了语音信号的信噪比,在一定程度上克服了只使用单一语音谱幅度分布函数带来的问题。