说话人识别情感合成问题的概率模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:antony86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术对智能通信和信息处理具有重要的推进作用。同时,语音数据具有高维时间序列的典型特征,是信号处理和模式识别领域各种算法验证的珍贵数据资源。因此,这个领域的研究工作一直火热地进行着。语音识别系统的效率容易受到会话差异的影响。即测试语音和训练语音不匹配的情况下,算法准确率会相对下降。其中由于录音者情感变化导致的测试和训练语音不匹配被称为情感失配,这至今是一个开放问题,一直没有很好地被解决。本论文针对说话人识别情感失配问题,进行了原理的分析和现象的总结。证明说话人情感变换与常见的信道失配问题的不同,解释了现有算法难以解决这个问题的原因。并针对情感噪音的特质提出了基于概率模型的统计推断方法。完善了已有情感合成算法的理论基础,获得了在MASC数据库上个人可以重现的最佳效果。针对当前主流的因子分析模型过度拟合的问题,将原模型改进为更符合语音数据特征的完全贝叶斯模型和非参数IBP模型,并给出求解的迭代算法和MCMC采样算法。成功地在不降低推断效果的基础上,将因子分析的模型参数缩减到原问题的30%。本论文的主要贡献如下:1.针对说话人识别情感失配问题,进行了原理的分析和现象的总结。针对不同的说话人以及不同的情感,目前仍然没有通用的模型可以描述情感变化的原因。针对不同的语音元素(音素)、说话人身份、情绪特性等等对说话人特征引起的变化具有很强的非线性特性。与一般的信道失配不同,情感失配没有办法用分隔开的空间分别表征说话人身份和信道的特征。由于数据量的不足,也没有办法通过LDA等技术进行无关信息的降维处理。值得注意的是,情感变化具有邻居相似的特性。即中性语音特征相似的说话人,一般在其他情感下也具有类似的特征。2.对说话人识别问题的概率推断模型进行抽象,将测试样本和模型参数数量引入分布提出了基于统计距离的分类模型。现阶段常用的通用背景模型系统经常依赖阶数很高的高斯混合模型训练。这类模型依赖相对庞大的背景语音数据库以及长度相对统一的训练和测试数据。基于贝叶斯统计的推断方法依指数分布族的共轭先验对进行生成模型的估计,不需要高斯混合模型的EM迭代训练,与之相比具有计算复杂性和算法效率上的优势。此外,通过基于AIC和BIC等模型选择理论的统计距离标准,可以有效地解决因语音长度变化等引起的信道失配问题。3.基于流型学习理论,对原有的近邻合成算法进行了推广,并在该框架下提出最优合成的求解方式,获得了模型合成最好的结果。由于情感变化具有邻居相似的特点,我们可以通过背景数据集中与训练模型相似的数据合成对应说话人其他情感的模型。本文提出了邻域最优线性合成算法,这种算法通过求解有约束的二阶优化问题,基于背景对中性语音模型进行最优重建。这个重建具有多种映射不变的特性,因此这个规律可以迁移到其他情感空间,采用对应的情感模型参数,对训练语音模型的情感参数进行估计。4.针对联合因子分析模型过度拟合的问题,提出了完整的概率方法,规范了模型的理论依据,并进行了非参数推广。联合因子分析模型在求解时,采用的是对特征变量进行估计,再对参数矩阵进行优化的EM迭代。由于对参数的稀疏性没有限制,并且参数矩阵的参数个数远大于特征向量,模型十分容易过度拟合,让说话人因子的范数无限接近O。通过对参数矩阵添加先验分布,我们可以用坐标下降的方法对模型进行迭代更新。实验证明这个算法可以有效地解决过度拟合的问题。在此基础上,本文又提出了基于IBP的非参数GMM超向量因子分析模型。可以自动适应说话人特征维度,将与说话人特征无关的高斯分量参数舍弃,提高模型的鲁棒性。实验证明可以以一般JFA模型30%的参数达到与其相同的识别效果。
其他文献
随着面向对象技术和工具的发展和日益成熟,与结构化设计相比,面向对象系统设计显示了巨大的优越性。同时,传统的度量方法已经很难反映面向对象软件系统的基本特征,因此,需要
在财务管理信息化建设之初,各级预算单位按照自身的业务需求建设了相应的财务管理系统。随着财政信息化建设的不断深入,各种问题便暴露出来,其中最为突出的是这些系统之间由
度量是一种从现实或实验世界到数学世界的映射,通过这种映射人们可以更容易地理解实体的特性和实体间的关系。随着软件规模的逐渐增大,软件复杂性的不断提高,软件的所有类或
随着Web服务及BPEL的深入发展,人员参与业务流程的问题已逐步引起了人们的关注。同时随着WS-HumanTask及BPEL4People规范的发布及标准化,越来越多的传统BPEL执行引擎开始支持
Deep Web环境下存在大量可访问的Web数据库,由于Web数据库的异构性和自主性,对从各个Web数据库中抽取出的结果进行集成是一项很有挑战性的工作。这些异构的Web数据库之间存在
随着无线通讯技术和全球定位技术的快速发展,基于位置信息的服务(Location Based Service, LBS)受到广泛关注。它在民用和军用方面等诸多领域展现了广泛的应用前景。而支持LB
相交图是图中非常重要的有着广泛应用的图,相交图的应用背景涉及生物、矩阵分析、统计学、任务分配等多个领域,而正是由于其具有广泛应用背景使得它在最近二三十年间得到了迅速
一个通用且高效的优化设计计算平台能有效地缩短飞行器设计周期、降低成本。本文描述了一个基于多学科设计优化(Multidisciplinary design optimization)理念的分布式并行计
近年来,随着无线网络通信技术、全球定位技术(GPS)以及地理信息系统的发展和应用,大量具有定位功能的便携设备(如移动电话、车载GPS等)得以普及,使得跟踪并记录移动对象的位
随着互联网的飞速发展,人们对科技文献的获取方式发生了根本性改变。目前通过网络获取、阅读文献已经成为主流,为了推动科研成果的传播和利用,开放存取(Open Access)在这一背