论文部分内容阅读
说话人识别技术对智能通信和信息处理具有重要的推进作用。同时,语音数据具有高维时间序列的典型特征,是信号处理和模式识别领域各种算法验证的珍贵数据资源。因此,这个领域的研究工作一直火热地进行着。语音识别系统的效率容易受到会话差异的影响。即测试语音和训练语音不匹配的情况下,算法准确率会相对下降。其中由于录音者情感变化导致的测试和训练语音不匹配被称为情感失配,这至今是一个开放问题,一直没有很好地被解决。本论文针对说话人识别情感失配问题,进行了原理的分析和现象的总结。证明说话人情感变换与常见的信道失配问题的不同,解释了现有算法难以解决这个问题的原因。并针对情感噪音的特质提出了基于概率模型的统计推断方法。完善了已有情感合成算法的理论基础,获得了在MASC数据库上个人可以重现的最佳效果。针对当前主流的因子分析模型过度拟合的问题,将原模型改进为更符合语音数据特征的完全贝叶斯模型和非参数IBP模型,并给出求解的迭代算法和MCMC采样算法。成功地在不降低推断效果的基础上,将因子分析的模型参数缩减到原问题的30%。本论文的主要贡献如下:1.针对说话人识别情感失配问题,进行了原理的分析和现象的总结。针对不同的说话人以及不同的情感,目前仍然没有通用的模型可以描述情感变化的原因。针对不同的语音元素(音素)、说话人身份、情绪特性等等对说话人特征引起的变化具有很强的非线性特性。与一般的信道失配不同,情感失配没有办法用分隔开的空间分别表征说话人身份和信道的特征。由于数据量的不足,也没有办法通过LDA等技术进行无关信息的降维处理。值得注意的是,情感变化具有邻居相似的特性。即中性语音特征相似的说话人,一般在其他情感下也具有类似的特征。2.对说话人识别问题的概率推断模型进行抽象,将测试样本和模型参数数量引入分布提出了基于统计距离的分类模型。现阶段常用的通用背景模型系统经常依赖阶数很高的高斯混合模型训练。这类模型依赖相对庞大的背景语音数据库以及长度相对统一的训练和测试数据。基于贝叶斯统计的推断方法依指数分布族的共轭先验对进行生成模型的估计,不需要高斯混合模型的EM迭代训练,与之相比具有计算复杂性和算法效率上的优势。此外,通过基于AIC和BIC等模型选择理论的统计距离标准,可以有效地解决因语音长度变化等引起的信道失配问题。3.基于流型学习理论,对原有的近邻合成算法进行了推广,并在该框架下提出最优合成的求解方式,获得了模型合成最好的结果。由于情感变化具有邻居相似的特点,我们可以通过背景数据集中与训练模型相似的数据合成对应说话人其他情感的模型。本文提出了邻域最优线性合成算法,这种算法通过求解有约束的二阶优化问题,基于背景对中性语音模型进行最优重建。这个重建具有多种映射不变的特性,因此这个规律可以迁移到其他情感空间,采用对应的情感模型参数,对训练语音模型的情感参数进行估计。4.针对联合因子分析模型过度拟合的问题,提出了完整的概率方法,规范了模型的理论依据,并进行了非参数推广。联合因子分析模型在求解时,采用的是对特征变量进行估计,再对参数矩阵进行优化的EM迭代。由于对参数的稀疏性没有限制,并且参数矩阵的参数个数远大于特征向量,模型十分容易过度拟合,让说话人因子的范数无限接近O。通过对参数矩阵添加先验分布,我们可以用坐标下降的方法对模型进行迭代更新。实验证明这个算法可以有效地解决过度拟合的问题。在此基础上,本文又提出了基于IBP的非参数GMM超向量因子分析模型。可以自动适应说话人特征维度,将与说话人特征无关的高斯分量参数舍弃,提高模型的鲁棒性。实验证明可以以一般JFA模型30%的参数达到与其相同的识别效果。