论文部分内容阅读
声纹识别又称为说话人识别,都是根据人生物特性来判断人的身份。声音作为人最自然的交流手段,以其无法比拟的优势被广泛应用到身份识别中去。本文的工作是研究基于高斯混合模型的说话人识别技术,并对特征参数的选取和识别算法做了一定的改进,以便获得较高的识别率。根据说话人识别的几个阶段,详细阐述了说话人识别技术的特征提取,模型建立等环节。声纹识别的建模有很多种技术,目前高斯混合模型以其建模简单、性能好、与文本无关等特性是使用最多的建模方法之一。本文介绍了高斯模型的建立、参数估计以及识别方法。在识别阶段根据语音帧中的某些特定不好的语音帧会影响系统的识别率的情况,给出了一种基于帧投票的判决方案。由于高斯混合模型在说话人很多的时候计算量较大,本文使用VQ方法来对高斯混合模型分成男声和女声两个部分,并使用动态时间规整算法来计算各个基音之间的距离来减少模型的对比次数,从而减少了识别时间。目前,大部分的声纹识别模型都是基于MFCC的混合高斯模型,MFCC包含语音频率结构的时间变化信息,相对稳定,但不同的声纹之间容易相互模仿,本论文针对MFCC的易模仿性,增加了另一种特征参数,基音周期,基音周期包含了语音频率结构信息,虽然会受到说话人健康状况的影响,但不容易模仿,将二者结合用于声纹识别。针对MFCC特征参数会损失人的部分声学特性的情况,将动态MFCC系数加入到特征向量中,又由于加入后会使得特征向量变得复杂,根据他们对身份识别率的贡献给出了一种加权的MFCC。在文章的最后部分进行了实验验证。验证了特征参数、高斯混合模型阶数、加权的MFCC等对识别率的影响。实验发现,MFCC的识别率高于LPCC识别率,MFCC结合动态MFCC后的系统识别率有着明显的提高,加权的MFCC识别率高于原MFCC识别率并且和结合动态MFCC的识别率相近,这说明加权的MFCC在提高了识别率的基础上又减少了计算的复杂度,最后分析了基音周期的作用与影响。