论文部分内容阅读
语音情感识别(Speech Emotion Recognition,SER)或声学情感识别自语音识别、说话人识别和情感识别研究诞生以来,在过去的几十年里取得了重大进展。近年来,研究者从不同的角度进行语音情感相关的研究,目标是实现高效的现实世界类人的语音情感识别系统,以解决现实生活中新型的人机交互问题。然而,目前公开的情感语料库存在录制条件、语言以及说话人等方面的差异,且从同一分布中提取的训练和测试样本的特征以及相同特征空间参数化的前提不适用于大多数真实场景。当SER系统在不同的语音语料库中进行训练和测试时,会遇到特征分布差异而导致的模型泛化性能差的问题。此外,跨语言识别的问题仍然是情感识别中的一个挑战。
为了解决上述问题,提出三种新的无监督域自适应语音情感识别方法。本文主要工作包括:
1)提出一种无监督域自适应语音情感识别方法。该方法采用耦合深卷积神经网络(CDCNN)结构。该结构引入源域分布和目标域分布的相关对齐损失(CALoss),有效地减小域差异,且能学到域之间的非线性变换。此外,源域和目标域对应层中的权重不共享但相关,可有效建立一个域到另一个域的迁移。为了评估所提出的方法,使用Interspeech2009情感挑战赛的FauAibo情感语料库作为目标数据集,两个公开的语料库(ABC和EMODB)作为源数据集,实验结果表明:所提出的方法识别准确率优于现有的方法。
2)提出基于双重排斥注意转移(DEAT)的无监督域适应语音情感识别方法。该结构适用于源域和目标域卷积自适应的非共享注意力转移过程。此外,该模型通过调整源域和目标域的二阶相关统计量,在卷积层和完全连接层上实现双域自适应过程,以学习有效的非线性变换,并捕获良好的可鉴别特征。同时,为了有效地对不同域偏移进行建模,将相应层的权重设置为互斥但相关。该模型将源域的分类损失以及卷积层和全连接层的相关对齐损失降到最低。以Interspeech2009情感挑战Fau-aibo情感语料库为目标数据集,以两个公开的语料库(abc和emo-db)分别作为源数据集进行跨域语音情感识别,实验结果表明:所提出的方法在两个源数据上均优于目前最好的结果。
3)提出基于三重注意力的非对称卷积神经网络语音情感识别方法,以解决跨语言和跨语料库语音的情感识别问题。该方法采用交叉熵损失和中心损失的联合约束,利用伪标签学习目标域的可鉴别特征表示。该模型采用三个非对称的注意卷积神经网络,其中两个网络用于对未标记的目标样本进行人工标记,源于源标记样本训练的输出结果,另一个网络用于从伪标记的目标样本中获得显著的目标识别特征。在三种不同语言类型(即英语、德语和意大利语)的数据集上验证所提出方法的有效性。
为了解决上述问题,提出三种新的无监督域自适应语音情感识别方法。本文主要工作包括:
1)提出一种无监督域自适应语音情感识别方法。该方法采用耦合深卷积神经网络(CDCNN)结构。该结构引入源域分布和目标域分布的相关对齐损失(CALoss),有效地减小域差异,且能学到域之间的非线性变换。此外,源域和目标域对应层中的权重不共享但相关,可有效建立一个域到另一个域的迁移。为了评估所提出的方法,使用Interspeech2009情感挑战赛的FauAibo情感语料库作为目标数据集,两个公开的语料库(ABC和EMODB)作为源数据集,实验结果表明:所提出的方法识别准确率优于现有的方法。
2)提出基于双重排斥注意转移(DEAT)的无监督域适应语音情感识别方法。该结构适用于源域和目标域卷积自适应的非共享注意力转移过程。此外,该模型通过调整源域和目标域的二阶相关统计量,在卷积层和完全连接层上实现双域自适应过程,以学习有效的非线性变换,并捕获良好的可鉴别特征。同时,为了有效地对不同域偏移进行建模,将相应层的权重设置为互斥但相关。该模型将源域的分类损失以及卷积层和全连接层的相关对齐损失降到最低。以Interspeech2009情感挑战Fau-aibo情感语料库为目标数据集,以两个公开的语料库(abc和emo-db)分别作为源数据集进行跨域语音情感识别,实验结果表明:所提出的方法在两个源数据上均优于目前最好的结果。
3)提出基于三重注意力的非对称卷积神经网络语音情感识别方法,以解决跨语言和跨语料库语音的情感识别问题。该方法采用交叉熵损失和中心损失的联合约束,利用伪标签学习目标域的可鉴别特征表示。该模型采用三个非对称的注意卷积神经网络,其中两个网络用于对未标记的目标样本进行人工标记,源于源标记样本训练的输出结果,另一个网络用于从伪标记的目标样本中获得显著的目标识别特征。在三种不同语言类型(即英语、德语和意大利语)的数据集上验证所提出方法的有效性。