论文部分内容阅读
说话人识别属于身份认证的范畴,其目的是通过语音信息的分析来辨认或确认语者的身份。由于其安全、便捷、经济的优势显著而受到研究者们的青睐。随着移动互联网技术的发展,语音识别技术受到前所未有的关注,而说话人识别技术属于语音识别技术的一个分支也获得了一次发展的契机。说话人识别技术在电子商务、银行、司法以及军事领域存在着巨大的应用价值。说话人识别技术通过语音数据的训练得到说话人模型,再将待测语音特征与说话人模型进行匹配,进而对说话人的身份做出判断。由此可见,要实现说话人识别需要解决以下几个基本问题:对语音信号的预处理;建立说话人模型;测试音与说话人的匹配距离计算。 本研究针对复杂环境下传统的语音端点检测方法效果不理想的问题,利用语谱图直观性与时频域结合分析的优势,提出语谱图端点检测法,从语谱图入手,找到语音与噪声本质上的差异并获得最佳划分阈值。结合小波变换的多辨性和语谱图直观的时频分析特性,提出基于小波语谱图分析的语音去噪法。随着系统注册的人数增加,识别速度会逐渐降低,导致系统的实时性减弱,而无法满足用户的要求。在分层识别的思想下提出基于模型密度的说话人聚类法,聚类过程需解决下面两个问题:无监督式的聚类往往使得各个类成员差别很大,并不能缩短整体的识别时间。说话人模型属于多参数的复杂模型,如何有效地度量两个模型间的相似程度。对于论文提出均匀划分的策略,使得聚类后的各类成员数在设定的范围内;对于论文在近似KL散度的基础上提出模型密度的概念,主要用于度量某个模型相对于类中所有模型而言的亲密程度,并进而作为产生新的类代表的依据。实验结果证明,所提出的小波语谱图去噪法的能够适应多种环境,满足说话人识别的要求;所提出的基于模密度的模型聚类法,在模型规模为630时能够保证识别率损失小于1%的情况下,识别时间缩短约为传统方法识别时的1/4,并且随着模型规模增加,效果越明显。由实验结论可知,本研究提出的快速识别方法对提高说话人技术的实用性有重要作用。此外,介绍了语音前端处理,倒谱特征参数的原理及提取步骤,高斯混合模型的原理、局限性分析与解决策略等内容。