论文部分内容阅读
语音是人类传播信息和表达感情的主要工具之一,是人与人、人与机器之间进行沟通的重要桥梁。然而,在实际生活中,语音不可避免的会受到外界噪声的干扰,以致影响语音信息的传递。语音增强是解决噪声污染、改善语音质量的一种有效方法,其在语音识别、语音低速编码和人机语音交互等领域都有着重要的应用。本文主要针对小波包变换与最小统计噪声谱估计方法相结合的语音增强算法进行了理论和实验研究,主要工作如下:研究分析了现有最小统计噪声谱估计算法的优缺点,提出了一个能自适应跟踪带噪语音短时功率谱最小值的新方法。算法核心是一个约束方差平滑滤波器,通过约束平滑短时功率谱的方差来降低由最小跟踪导致的估计偏差,提出了两种估计滤波器平滑参数的方法,一种方法由带噪语音平滑谱的过去值估计,另一种方法由带噪语音平滑谱的统计估计。与其它最小统计噪声估计算法相比,约束方差平滑参数在平滑带噪语音短时功率谱时不依赖于噪声水平,所以无需对语音出现概率进行判断就可以追踪噪声谱的快速变化。分析了影响最小统计噪声估计偏差的因素,提出了偏差补偿算法,并通过拟合的方法得到偏差补偿量。模拟人耳的Bark域听觉感知特性,设计了临界带小波包分解结构,对8kHz采样信号,在人耳临界带17个子带、中心频率相差1Bark的基础上,结合语音特点,对625Hz以下和3000-4000Hz频率范围进行了细分,使这部分子带中心频率相差0.5Bark,最终得到24个子带,在此基础上提出了结点阈值语音增强算法,由谱熵法估计每个结点上的噪声标准差,并采用软阈值法进行阈值处理。分析了人耳对声音的掩蔽效应,通过对结点阈值法初步增强的语音进行能量分析进而计算得到了噪声掩蔽阈值。提出了增益小波包变换语音增强算法,并将增强语音与纯净语音的偏差直观的分解为残余噪声和语音失真两部分,针对很多增强算法只强调信噪比的提高而忽略语音失真的问题,论文提出对增益系数进行感知限制,即在保证残余噪声小于噪声掩蔽阈值的条件下尽量减小语音失真,设计了代价函数,从而得到了感知增益系数。同时为了避免低信噪比情况下噪声的过衰减现象,在限制语音失真小波包系数功率小于残余噪声小波包系数功率的准则下得到了噪声掩蔽阈值的下限限制,达到进一步减小失真的目的。