论文部分内容阅读
准确的语音端点检测可以提高语音后续处理的正确率和处理效率,同时也可以为语音分割提供依据。目前已有很多语音端点检测的方法,它们在高性噪比和平稳噪声情况下具有很好的检测性能,但在低性噪比以及非平稳噪声的环境中,检测性能大幅下降,本文对此展开研究。,长时特征是用一个长时窗口对已经过短时分帧处理的语音帧重新进行分割,然后分析重新分割后的语音特性,这将有效提高端点检测在低信噪比和非平稳噪声下的语音端点检测效果。LTSV(Long-Term Signal Variability)是一种基于谱摘的长时特征,具有比短时特征和其他长时特征更高的鲁棒性,本文在LTSV的基础上进行改进,提出了两种新的基于长时特征的语音端点检测方法:(1)谱平度能够有效地分析语音功率谱的分布情况,且在语音和噪声的情况下会表现出明显的差异性。本文利用谱平度的原理,提出了 LTSV长时平度的语音端点检测方法。首先对语音进行长时分割,然后分析LTSV特征的长时分布情况,最后将语音帧内的所有频点的LTSV长时平度值的方差作为特征。本文采用设置自适应阈值的方法以及投票决策的机制进行语音端点检测,并通过实验证明,LTSV长时平度特征在分割噪声、突发噪声和类语音噪声下比LTSV具有更好的分辨力。(2)动态特征能够分析语音的动态变化,与静态特征相比,能够更好地拟合语音,而长时动态特性又能够比短时动态特性提取更多的上下文的信息。本文采用LTSV长时动态特征,利用设置自适应阈值的方法以及投票决策的机制进行语音端点检测,提出了 LTSV长时动态特性的语音端点检测方法。实验证明,在低性噪比和非平稳噪声情况下,LTSV长时动态特征比LTSV和LTSV长时平度特征具有更好的分辨力和更高的鲁棒性。