论文部分内容阅读
语音信号中包含了各种各样的语音信息和各种丰富的情绪状态,为了更高效快捷地进行人机交互,研究语音信号中蕴含的情感特征,理解其情感要素,是十分具有应用价值与研究意义。为了提高非特定人语音情感识别的识别率,本文从特征参数的提取和模型的选取两方面入手。一是选取可以有效表达语音情感的时域和频域特征,二是对识别模型进行改进,分别应用在非特定人的语音情感识别中。本文的首要研究内容以及创新点如下:1.语音情感识别理论的研究综述。分析了语音情感识别的基本原理以及相关的理论知识,为本文进行语音情感识别的研究提供理论基础。2.融合语音情感特征。通过提取MFCC特征和用DCNN提取梅尔谱图特征,运用多核学习方法将二者融合成新的特征,将生成的核函数用于SVM分类。在EMO-DB语料库和CASIA语料库的实验结果证明,对应的语音情感的平均识别率分别为90.14%和91.5%,多个特征的融合要比使用单一特征的分类器具有更高的分类精度。与其他语音情感的算法相比,提高了4.85%、3.14%,故所提出的方法可以有效地提高识别率。3.提出一种DCNN Bi GRU self-attention改进模型。用DCNN提取梅尔谱图可以更好地捕获语音情感表征空间的特征。GRU是LSTM的变体,Bi GRU网络综合了双向循环神经网络和长短时记忆网络两个方面的优势,可以学习到语音情感序列数据关于时间方面的上下文信息。为了处理RNN输出误差慢慢消散而致使记忆下降的情况,可以用GRU神经元代替RNN。另外GRU张量的计算不多,所以相对于LSTM而言,GRU的训练速度更高效。与此同时,使用self-attention机制使网络模型能够重点判断每帧语音对情感的作用,依照其对情感的作用去选取每帧语音中占的情感信息比重。通过在EMO-DB和CASIA语料库上分别进行实验,相对应的语音情感平均识别率分别可达到89.53%和91.74%。与其他基于RNNs模型相比,提高了9.49%、4.09%、0.87%,证明了该模型的可行性。