论文部分内容阅读
说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术。在生物认证技术领域中,说话人识别技术以其独特的方便性、经济性和准确性等优势受到世人关注。 本文的工作是围绕基于高斯混合模型的说话人识别系统展开研究,在完成多项基本性能的测试和比较的基础上,对特征提取、分类算法、识别统计中的某些环节进行一定的改进,以便获得较高的识别率。本文的工作主要有以下几个方面: (1) 系统构建:在给出语音分段和识别率计算原则的基础上,首先研究了不同测试语音单位长度对识别率的影响情况,证明了这些原则的正确性和系统的可靠性;针对预处理过程中的预加重系数和加窗分帧帧长的选择进行实验,取得了预加重系数的最优值,以及在不同高斯混合模型阶数条件下的最佳帧长。 (2) 性能研究:在相同的测试条件下,研究了LPC、LPCC、MFCC这些主流基本特征的优劣,证明了MFCC这种充分模仿人耳听觉特性的特征对提高识别率的作用;在相同的测试条件下,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大或过小对系统的负面影响,并结合实际情况进行了选择;提出在EM算法的迭代过程中设置协方差阈值,并对不同阈值条件下的识别率进行实验对比,证明了将协方差阈值设置为0.10的普适性和可行性。 (3) 系统改进:对较为可靠的基本特征MFCC进行改进,引入差分倒谱概念并对改进前后的特征进行实验,证明了这种综合考虑前后帧影响的差分特征的有效性;考虑到传统最大期望算法存在着会出现奇异阵的缺陷,引入参数α来控制修正比例对迭代结果进行修正,验证了改进算法在参数估计上的有效性;针对系统判别准则中常用的传统概率打分法,采用归一化投票和设置比例阈值的方法改进,验证了归一化改进的局限性和比例阈值改进的有效性。 最后对本文工作进行了总结,同时对未来的研究工作进行了展望。