跨库语音情感识别若干关键技术研究

来源 :东南大学 | 被引量 : 6次 | 上传用户:wjln123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别(Speech Emotion Recognition,SER)是目前情感计算、模式识别、信号处理和人机交互领域的热门研究话题。SER的主要目的是对语音信号按照不同的情感进行分类,比如"生气"、"恐惧"、"厌恶"、"高兴"等。在过去的几年里,已经提出了许多有效的方法来应对SER中出现的问题。在各种研究方法中,大部分是集中在一个单一的语音数据库上进行的。然而,在许多实际应用情况下,用于训练的语料库与测试语料库存在非常大的差异,例如训练和测试数据库来自两种(或更多种)不同的语言、说话人、文化、分布方式、数据规模等。这就出现了一个重要的研究内容:跨数据库(Cross-corpus)的语音情感识别。由于SER的研究涉及特征提取、特征优选、分类器改进、特征融合等多个技术部分,因此本文根据其特点,针对跨数据库语音情感识别相关的关键技术进行研究。论文的主要研究内容如下:1.针对跨库语音情感特征优选分类,提出了带有无限成分数的t分布混合模型(iSMM)。它可以直接对多种语音情感样本进行有效的识别。与传统的高斯混合模型(GMM)相比,基于混合t分布的语音情感模型能有效处理样本特征空间中存在异常值的问题。首先,t分布混合模型对用于测试的非典型情感数据能够保持鲁棒性。其次,针对高维空间引起的数据高复杂度和训练样本不足的问题,本文将全局隐空间加入情感模型。这种方法使样本空间被划分的成分数量为无限,形成一个iSMM情感模型。此外,该模型可以自动确定最佳的成分数量,同时满足低复杂性,进而完成多种情感特征数据的分类。为验证所提出的iSMM模型对于不同情感特征分布空间的识别效果,本文在3个数据库上进行仿真实验,分别是:表演型语料库DES、EMO-DB和自发型语料库FAU。它们都是通用的语音情感数据库,且具有高维特征样本和不同的空间分布。在这种实验条件下,验证了各个模型对于特征异常值和高维数据的优选效果以及模型本身的泛化性。结果显示iSMM相比其它对比模型,保持了更稳定的识别性能。因此说明本文提出的基于无限t分布的情感模型,在处理不同来源的语音数据时具有较好的鲁棒性,且对带有离群值的高维情感特征具有良好的优选识别能力。2.结合K近邻、核学习方法、特征线重心法和LDA算法,提出了用于情感识别的LDA+kernel-KNNFLC方法。首先针对过大的先验样本特征数目造成的计算量庞大问题,采用重心准则学习样本距离,改进了核学习的K近邻方法;然后加入LDA对情感特征向量优化,在避免维度冗余的情况下,更好的保证了类间情感信息识别的稳定性。对于跨库领域的研究,关注了独立数据库中不同类别间边界拟合度过高导致的识别性能差异;通过对特征空间再学习,所提出的分类方法优化了情感特征向量的类间区分度,适合于不同语料来源的情感特征分类。在包含高维全局统计特征的两个语音情感数据库上进行了仿真实验。通过降维方案、情感分类器和维度参数进行多组实验对比分析,结果表明:LDA+kernel-KNNFLC方法在同条件下识别性能有显著提升,具有相对稳定的情感类别间分类能力。3.针对跨库条件下情感特征类别的改进(扩充)研究,提出了基于听觉注意模型的语谱图特征提取方法。模型模拟人耳听觉特性,能有效探测语谱图上变化的情感特征。同时,利用时频原子对模型进行改进,取得频率特性信号匹配的优势,从时域上提取情感信息。在语音情感识别技术中,由于噪声环境、说话方式和说话人特质等原因,会造成特征空间分布不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别任务中。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能急剧下降。语谱图的特征能从图像的角度对现有情感特征进行有效的补充。听觉注意机制使模型能提取跨语音数据库中的显著性特征,提高语音情感识别系统的情感辨识能力。仿真实验部分利用文章所提出的方法在跨库情感样本上进行特征提取,再通过典型的分类器进行识别。结果显示:与国际通用的标准方法相比,语谱图情感特征的识别性能提高了约9个百分点,从而验证了该方法对不同数据库具有更好的鲁棒性。4.利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统声学情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征相结合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发提取语谱图特征;然后研究改进了 DBN网络模型,并利用其对传统声学特征与语谱图特征进行了特征层融合,扩充了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别性能获得了明显提升。5.研究了由跨数据库条件下不同语言的使用和大量非特定说话人引起的SER模型特征自适应问题。根据前面章节所介绍的跨库语音情感识别的内容,对特征参数失真、语谱图特征构造、建模算法对比、在线优化等方面进行了自适应相关的研究,并对具体的实验性能进行了比较分析。首先,讨论了现有的语音情感识别自适应方法。然后,对于跨库的情况,进一步研究了自适应说话人加性特征失真的情况,并给出模型方案。接着,为研究多说话人自适应问题给SER系统带来的影响,对其过程进行建模,将高斯混合模型与学生t分布模型两种统计方法进行对比讨论。再分别利用各自适应方案来获取包括语谱图特征在内的特征函数集。此外,还使用了一些在线数据对特征函数进行了快速优化。最后,在四种不同语言的数据库上(包括:德语、英语、中文和越南语)验证了各自适应方案的有效性。实验结果表明:改进的自适应方案具有良好的说话人特征自适应效果,尤其在处理大量未知说话人的情况下显示了较好的模型参数迁移能力。此外,对于由跨数据库中不同语言对情感特性的影响,从特征自适应角度进行了实验分析和讨论。
其他文献
儿童文学是与成人文学相对照才能存在的一种文学样式。因此,儿童文学的本质论只有在与成人文学的区别中才能建立。儿童文学是儿·童·的·。儿童这一生命存在与儿
本文针对中海石油有限公司的会计准则和勘探管理相关技术规范以及现实存在问题,对探井成果分类以及对应的会计处理和财务管理等制度规范进行了内部整合,目的是通过科学管理提
<正>早在1941年,叶圣陶先生就对"读整本的书"做了专门论述,明确提出"把整本书作主体,把单篇短章作辅佐"的主张。2011年版《语文课程标准》中,"教学建议"部分指出:"培养学生广
目的 探讨 β -丙内酯灭活双价Vero细胞肾综合征出血热纯化疫苗的最佳条件。 方法 采用不同终浓度的 β-丙内酯和不同的灭活时间对疫苗进行灭活 ,用细胞培养法进行病毒增殖
高性能纤维增强树脂基复合材料在航空卫星、机车动车、电机器件等领域发挥的作用越来越大,近年来树脂基复合材料的综合性能一直是关注的热点。高性能树脂基复合材料的纤维增
<正>目前,关联企业用工乱象突出,一些用人单位通过注册新企业、内部派遣用工、变更合同主体、恶意注销企业等手段,意图规避签订劳动合同、签订无固定期限劳动合同等法律责任,
新课改理念下,在物理教学中开展小组合作学习,有助于教学目标的达成,学生能力的培养。因此,本文结合自己的实践经验,来探讨一下新课改下初中物理教学中的合作学习策略。
本文通过引入一件人格混同用人单位规避用工责任的劳动争议案件,评析该类型公司规避用工责任的方式,并时社保请求是否受仲裁时效限制的问题提出了自己的看法。
提出一种对温度和折射率进行同时测量的双周期光纤光栅传感器。双周期光栅通过将长周期光栅和光纤Bragg光栅刻写到光纤同一位置而构成。利用两种光栅对温度和折射率的灵敏度