论文部分内容阅读
说话人识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。凭借其独特的经济性、准确性和方便性等优势,说话人识别技术已广泛应用于通信、公安、金融、司法及其它民用安全认证领域。本文围绕文本无关的说话人识别系统展开研究工作。在对语音预处理、说话人特征提取和识别算法深入研究和实验验证的基础上,设计了一套切实可行的系统小型化架构方案;结合Nios II嵌入式处理器和FPGA自身特点,对整个算法进行了合理的选择与优化,设计了基于SOPC的文本无关的开集说话人识别系统。论文的主要研究内容包括以下几个方面:1.研究了基于高斯统计模型的VAD算法,并针对语音中的噪声存在性以及DD参数估计算法的帧延迟特性,构建了基于TSNR估计方法的子频带加权VAD算法,提高了高斯统计模型VAD算法的鲁棒性。实验表明,此子频带加权算法优于Sohn、Cho以及G.729B等全频带算法。2.研究了常见的说话人特征提取以及识别算法,重点分析和验证了MFCC类和声源类特征参数以及基于VQ和GMM算法的二级识别结构对说话人识别系统的影响。实验表明,采用MFCC及其差分系数、帧对数能量和Renyi熵构成的混合特征参数,能够充分刻画说话人的声道和声源特征,使说话人识别系统达到最佳的识别性能;MFCC与帧对数能量构成的混合特征参数占用空间及识别时间最少,系统识别性能较好,最适合嵌入式系统实现;二级识别算法在保证或优于GMM识别算法精度的同时,降低了系统实现的计算复杂度。3.在基于SOPC的设计平台上,采用MFCC与帧对数能量混合特征参数以及基于VQ和GMM的二级识别算法,构建了完整的开集说话人识别系统以及良好的人机交互接口,实现了语音的实时采集与处理、用户键盘注册与系统输出显示等功能,并通过实际测试验证了说话人识别系统工作的可靠性。系统实验结果表明,本文所设计的系统整体方案有效可行,基于SOPC的说话人识别系统在速度、精度、可扩展性等方面具有独特的优势,是说话人识别系统小型化的一种切实可行的解决方案,具有良好的发展空间。