论文部分内容阅读
语音搜索是用来判定特定目标身份信息的一种识别技术,应用领域较为广泛,所以嘈杂环境下特定目标语音搜索方法成为当前研究的热点,具有重要的理论和实际意义。本文从语音信号的基本理论入手,着重研究了特征参数的提取、高斯混合模型的训练方式、噪声参数估计及语音增强算法,并提出了一种基于语音增强算法与高斯混合模型相结合的嘈杂环境下语音搜索方法。本文对语音搜索的逐个环节进行了详细研究,首先对语音信号的预处理过程进行了简要分析,研究了几种常用的端点检测方法,指出了其在嘈杂环境下的不足。其次分析了几种典型特征参数的提取方法,并对梅尔倒谱系数进行一阶差分处理得到ΔMFCC,将MFCC与ΔMFCC相融合,以提高系统搜索的准确性。然后对嘈杂环境中的噪声特性进行了研究,主要分析了有声/无声段检测与连续噪声谱两种噪声估计的方法,并将改进的谱熵法用于有声/无声段检测。经仿真实验表明,有声/无声段检测仅能对平稳噪声进行有效估计,而连续噪声谱对平稳噪声和非平稳噪声均有较好的处理效果。在噪声估计的基础上,为了提高语音信号的信噪比,减少信号失真。对谱减法,维纳滤波算法,基于最小均方误差的MMSE算法进行了研究,并提出了新的动态Dynamic-MMSE算法。经仿真实验表明,本文提出的新算法较上述算法性能上有了一定提升。为了提高特定目标语音搜索的识别率,对诸多识别模型进行了研究。最终确定采用高斯混合模型及期望最大化算法(EM算法)将融合后的特征参数进行特定目标语音搜索,优势在于并不需要完整的数据便可对概率模型的特征参数进行最优估计,对于嘈杂环境下的语音搜索尤为适用。经一系列仿真实验表明,将梅尔倒谱系数与ΔMFCC融合后的特征参数能更好的反映特定目标的个性信息,经噪声参数估计和语音增强后,能将语音信号从带噪语音信号中较好的分离出来,将融合后的特征参数,经高斯混合模型训练识别后,在嘈杂环境下,特定目标的识别率有了明显提升。