论文部分内容阅读
语音是人类相互之间交流信息最快捷、最重要、最有效和最方便的形式。然而在实际环境下的语音应用过程中,如语音识别、语音编码、语音转换、语音通信等,不可避免地受到来自周围环境的各种噪声影响。噪声严重影响着这些应用技术的性能,甚至导致系统失败。语音增强是解决噪声污染的有效方法,其目的是从含噪语音信号中尽可能提取纯净的语音信号,抑制背景噪声,提高语音的清晰度和可懂度。该技术涉及诸如助听器、电子耳蜗、盲人语音通信、人机交互系统和移动语音通信等多方面的应用。
近年来出现了多种语音增强方法,这些技术在较高信噪比时已取得比较好的效果,然而对弱语音信号或在低信噪比环境下,增强后的语音常伴有无法抑制的残留噪声和背景噪声,同时语音失真度很大。在此背景下,本文研究了低信噪比环境下的语音增强,主要工作如下:
1、在低信噪比环境下,采用传统的算法进行语音端点检测存在正确率低、抗噪性能差等问题。本文研究了一种基于希尔伯特-黄变换(HHT)瞬时能频值的语音端点检测算法。运用HHT分离出语音的瞬时幅值与频率,提取基于时间-能量-频率特征参数的瞬时能频值,利用该特征值对语音和噪声进行区分,从而进行端点检测。实验结果表明该算法检测的正确率均高于零能法、熵函数法等方法。
2、提出了一种基于约束方差频谱平滑和极小值跟踪(VCSS-ML)的噪声谱估计算法。该方法根据含噪语音子带平滑功率谱与其最小值之间比值,通过加权含噪语音功率谱来估计噪声谱,同时通过含噪语音平滑功率谱的方差对噪声谱进行平滑。该算法可以在很短的语音间隙中更新噪声功率谱,大大提高了算法的适应速度。实验结果表明估计的噪声谱既能快速适应背景噪声的变化,又能保证噪声谱估计的准确性。特别是在强背景噪声和慢变化噪声情况下,性能都得到了明显的提高。
3、提出了一种基于听觉感知小波阈值的清音增强方法。该方法采用听觉感知小波变换对含噪语音分解,得到小波听觉感知子带层系数,采用HHT瞬时能频值进行清浊音判别,对浊音部分采用听觉掩蔽阈值进行处理,对清音部分采用一种基于噪声功率谱估计的改进软限幅阈值算法来进行处理。实验结果表明该方法很好地解决了语音信号的保护和噪声去除之间的矛盾,在抑制噪声的同时清音信号也得到了较好地保留。
4、提出了一种听觉神经模型和量子听觉神经网络相结合的语音增强方法。低信噪比的含噪语音经过听觉神经模型处理后,增强为信噪比较高的语音。采用听觉皮层模型提取每一帧语音信号时频信息,利用量子神经网络的非线性映射和自学习能力来优化减参数,从而进行语音增益估计,实现语音增强。实验结果表明该方法利用神经网络的自适应学习能力,减少了对目标语音信号的失真,在主观和客观的听觉性能指标上都有明显的改进。
5、耳语音是一种低信噪比的弱语音信号,采用传统的谱减类算法进行耳语音消噪时更容易产生令人烦躁的“音乐噪声”。本文提出了一种基于修正Mel域听觉掩蔽模型和无语音概率(SAP)的含噪耳语音增强方法。该方法根据耳语音的发音特点对Mel频率进行修正,对每一帧耳语音信号进行Mel域频带滤波,再通过无语音概率动态地确定每个频带的听觉掩蔽阈值,对不同的听觉掩蔽阈值自适应地调整谱减系数来进行含噪耳语音的增强。实验结果表明,该方法与其它谱减法相比,能将残留噪声和背景噪声控制在人耳掩蔽阈值下,语音失真更小,主观听觉方面也得到了很大的改善。