论文部分内容阅读
说话人识别是以语音作为识别特征,采用机器学习方法对语音信息进行处理,自动进行识别说话人身份的技术。目前,基于I-vector模型的说话人识别模型性能良好,已经成为说话人识别领域中的主流模型。本文主要是对基于I-vector模型的说话人识别算法进行研究,并在此基础上引入距离与相似性度量学习算法。度量学习算法通过使得同类样本更紧凑,非同类样本更分散,提高说话人识别系统性能。本文主要研究KISS(Keep It Simple and Straightforward)与SUB-SML(intra-person Subspace Similarity Metric Learning)度量学习算法在说话人识别系统中的应用。KISS算法具备可利用大规模数据集和可扩展性等特点,通过引入等价约束关系学习度量矩阵,而且学习得到的度量矩阵可保证同类样本强相关。本文将KISS度量学习算法应用在说话人识别系统中,通过对i-vector向量进行KISS度量矩阵线性变换,减少信道差异和说话人个人内在变化对系统的影响。在NIST SRE 2014库上进行实验,分别使用余弦相似分类器和马氏距离分类器进行打分判别。实验结果表明KISS模型采用余弦相似分类器打分可以提高系统性能,而且采用采用马氏距离分类器打分系统性能提高更显著。此外,对KISS模型与PLDA模型进行得分融合实验,实验结果表明系统性能得到进一步提高。SUB-SML算法从保持相似性度量学习的鲁棒性和判别性两方面出发,提出在说话人个人子空间内学习训练度量矩阵,联合马氏距离度量和双线性相似性度量,形成广义的相似性度量学习。NIST SRE 2014库只提供训练样本的标签信息,所以需要为SUB-SML算法构造训练样本对集合。本文提出选取欧式距离最大的相似对和欧氏距离最小的非相似对构造训练样本对集合,使得训练得到的度量矩阵具备判别相似度低的同类样本以及相似度高的非同类样本能力。本文将SUBSML度量学习算法应用在说话人识别系统中,提出新方法构造SUB-SML算法的训练样本对集合,并且对i-vector向量进行SUB-SML度量矩阵线性变换。实验结果表明基于SUB-SML模型与基线i-vector模型相比系统性能有所提高,而且采用新方法构造的训练样本对集合的SUB-SML模型性能提高显著。SUB-SML算法联合马氏距离度量和双线性相似性度量,若只考虑马氏距离度量或双线性相似性度量,则分别得到SUB-ML和SUB-SL算法。本文将SUB-ML和SUB-SL度量学习算法分别应用到说话人识别中,实验在NIST SRE 2014年库上进行,结果表明这两种模型性能均优于传统余弦距离分类器模型。此外,还对SUB-ML模型与基于SUB-SL模型进行系统得分融合实验,实验结果表明融合后的系统性能比基于PLDA模型的系统性能更佳。