论文部分内容阅读
说话人识别技术是生物认证的一种,它是根据说话人语音波形中能反映说话人生理和行为个性特征的语音参数来自动鉴别说话人身份的过程,该技术以其显著的使用方便、经济和有效等优势在许多领域中有着广泛的应用前景。
本文主要研究了噪声环境下文本无关的说话人识别的相关内容。为改善系统识别率和系统响应时间,本文在介绍说话人识别基本原理的基础上,重点围绕识别模型和语音去噪两方面进行研究。在识别模型方面,详细介绍了高斯混合模型(GMM)和支持向量机(SVM)模型的理论知识,并针对两者自身的优缺点,本文提出了两种GMM和SVM相结合的方法,实验证明这两种混合模型都可以改善系统性能。针对噪声环境下,系统识别率急剧下降的问题,本文在原有小波阈值去噪的基础上提出了一种改进的阈值函数并采用了区分清浊音的小波去噪方法,实验证明这些改进可取得更好的去噪效果。具体研究工作如下:
(1) GMM属于概率统计模型,有很强的数据描述能力和较弱的数据分类能力。SVM模型属于分类器模型,有很强的数据区分能力和较弱的数据描述能力。结合这些特点,本文提出了用GMM对大样本特征参数聚类得到能更好表征说话人个性特征的小样本的GMM模型参数作为SVM特征参数的模型结合方法。实验证明该模型既可以改善系统响应时间又可以提高系统识别率。
(2)当说话人集合比较大时,针对SVM识别耗时的问题,本文又提出了另一种GMM和SVM相结合的方法。通过实验可知,对于相同的特征数据,在识别阶段,一般情况下GMM比SVM所用的时间短,而且我们还可发现即使GMM识别错误,但如果将最大后验概率按由大到小进行排序,正确说话人模型所对应的最大后验概率还是比较靠前的。根据这些特点,本文提出了用GMM作首次识别用SVM做二次识别的结合模型,通过GMM的首次识别来确定几个最有可能的结果来缩小用于SVM识别的说话人集合,从而进一步改善系统响应时间。
(3)在安静环境下,系统可以取得比较满意的识别率,针对噪声环境下系统识别率急剧下降的问题,本文提出了一种改进形式的小波阈值函数,且采用区分清浊音的去噪的方法,实验证明这些改进可以改善去噪效果。