论文部分内容阅读
本文主要研究了低信噪比下的语音端点检测和语音增强。端点检测和语音增强都是语音信号的前端处理,其准确性在很大程度上影响了后续语音处理如语音编码和语音识别的效果。有效的端点检测不仅能使处理时间减到最少,而且能排除无声段的噪声干扰。语音增强则从含噪信号中提取干净的语音信号,提高语音信号的信噪比。 关于低信噪比下的语音端点检测和语音增强,本文的主要工作如下: 1.研究了基于短时能量和短时平均过零率的端点检测方法,对能量阈值的设定提出了改进,利用无声段能量的平均值代替了最小值,并着重探讨了此方法在不同噪声环境下的检测效果。 2.研究了基于频带方差的端点检测法,利用语音段和噪声段频谱特性的差异来检测语音的起始和结束点,并在实现过程中剔除了无声段中某些帧的频带方差的突变,避免了因话筒震动等原因引起的脉冲干扰。 3.研究了基于短时信息熵的端点检测方法,利用语音段信息熵高于无声段的特点,进行语音起始点和结束点的判定,并讨论了实现过程中门限阈值的设定和剔除无声段中某些帧的熵值突变的问题。 4.利用以上三种方法,对20个数字和字母的汉语发音以及一些汉语短句,测试了它们在纯净语音、加不同信噪比白噪声和Babble噪声情况下的检测效果。结果表明,在安静环境下,短时能量过零率法和信息熵方法的检测结果比频带方差法准确;但在噪声较大的情况下,频带方差法特别是信息熵法的检测效果要远远优于短时能量和过零率法。 5.针对谱相减方法中忽略了含噪信号随时间的变化和在不同频段下的噪声对语音信号影响的问题,提出了两种改进算法:对每一帧含噪信号根据其噪声平稳度的不同动态调整谱相减算法的系数;以及根据每一帧语音信号的听觉掩蔽阈值动态调整各个关键频段的谱相减参数,从而更加准确的逼近实际噪声,使谱相减之后的结果更趋近纯净语音信号。与常用谱相减算法的对比实验证明,改进算法能有效消除音乐噪声,在很大程度上提高了信噪比。相比之下,基于听觉掩蔽模型的谱相减算法以人耳的听觉系统特性作为研究的基础,其增强结果在可懂度上也有了一定的提高,这为解决信噪比与可懂度的矛盾提供了一种新思路。