论文部分内容阅读
说话人识别是最自然的生物特征身份鉴定方式,可分为说话人辨认和说话人确认。说话人识别根据包含在语音信号中的个性特征来自动识别说话人,其关键问题是特征参数选择与识别模型建立。目前,说话人识别的常用特征参数有线性预测编码(LPC)参数、LPC倒谱(LPCC)和美尔倒谱系数(MFCC)等,常用的识别模型有动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等。LPCC反映了说话人声道生理结构的差异,而MFCC则利用了听觉频率非线性特性,反映了人对语音的感知特性。希尔伯特-黄变换(HHT)自1998年提出,由于其处理时变、非稳态系统信号的较强的自适应能力,已得到了较广泛的关注和获得了许多成功的应用,目前也是语音信号处理的最新研究手段。这些特征参数各有其优势,但单独都不能充分描述说话人的个性特征,一般主要包含语义信息,也可能包含说话人的某些特征,综合利用方可使系统性能可靠。有鉴于此,在说话人识别系统中首先分别使用LPCC、MFCC和HHT提取出的参数作为特征参数,然后将MFCC与基于HHT提取出的特征参数有机地构成混合参数。本文采用Matlab工具试验比较了LPCC、MFCC、基于HHT提取出的特征参数、混合参数分别与DTW、DHMM(离散马尔可夫模型)、GMM(高斯混合模型)相结合的识别效果。接着,测试了GMM中高斯分量的选择对识别性能的影响。实验结果显示,对于说话人辨认,基于HHT提取出的特征参数有较好的识别率,基于混合参数和GMM相结合的识别率高于基于混合参数和DTW或DHMM相结合的识别率,并且混合参数明显优于单一的参数的性能。试验证明了基于HHT提取出的特征参数作为一种新的特征参数可以应用于说话人识别,将其与MFCC参数相结合构成混合参数,既利用MFCC能够较好地描述动态时间序列又利用HHT频率分辨能力强的特点,将该混合参数应用于说话人辨认系统,提高了系统的性能。对于说话人辨认系统,识别模型选择GMM,系统的识别性能是最优的,即识别率最好,训练时间较短。