论文部分内容阅读
语音端点检测是语音识别、语音编码等语音分析系统中一个重要的环节,其准确性在某种程度上直接决定了整个语音数字信号处理系统的成败。在实际运用中,通常要求首先对系统的输入信号进行判断,准确的找出语音信号的起始点和终止点。这样才能采集到真正的语音数据,减少数据量和运算量,并减少处理时间。目前,现有的端点检测算法对信噪比很高的语音端点检测效果很好,且这些算法简单实用,但当有背景噪声时,其性能都有很大程度的下降,有的因此而失效,因为研究抗噪声语音端点检测算法意义重大。
本文首先简单介绍了语音产生机制,语音信号的采集和数字化、加窗分帧和时域、频域等处理方法。然后对近几年国内外研究学者提出的语音端点检测算法和语音增强算法进行了对比仿真研究,分析了现在常用算法的优缺点,为抗噪声语音端点检测算法的改进提供理论基础。在比较研究目前常用的语音识别端点检测算法后,深入研究信息熵函数,信息熵函数在无背景噪声情况下,能够很好的区分语音段和非语音段,由于其受语音的能量影响小且具备一定的鲁棒性,所以这一特征在近几年备受研究人员的青睐特征,在此基础上提出了基于信息谱熵的改进抗噪声端点检测算法:
(1) 在基于信息谱熵语音端点检测的基础上,结合谱减法在高斯噪声降噪方面的优越特性,提出了结合谱减法增强的信息谱熵端点检测改进算法(IABSE)。该算法既克服了谱减法往往是利用固定的无音片段来对背景噪声进行估计容易产生误差的缺点又消除了高斯噪声对语音与非语音信息熵特征的区分性的影响。仿真实验表明,该改进算法对高斯背景噪声具有很好的鲁棒性。
(2) 由于谱减法对加性高斯噪声往往能起到明显的效果,但对非高斯噪声没什么效果,而语音和噪声存在统计特性的差别,运用独立分量分析(ICA)可以有效区分语音和噪声。本文结合ICA降噪和改进子带谱熵提出新的端点检测算法(ICASE),以改善在多种背景噪声下的端点检测算法的鲁棒性。实验结果表明,该算法对加性非高斯背景噪声具有很好的鲁棒性。