论文部分内容阅读
情感是人类的一种丰富的心理行为,一直是很多科研领域的研究热点。语音信号是人与人之间最自然的交流方式,它不仅包含要传递的内容,而且包含丰富的情感因素,并已应用于情感研究。语音情感识别是以语音作为情感的载体来研究语音中各种情感的形成与变化,让计算机可以通过语音来解析出说话人的具体情感状况,从而使得人机交互变得更加人性化。在语音情感识别领域中,情感特征参数的提取和分类模型的训练是目前重要的研究方向,它们的好坏会直接影响着整个系统的识别率。本文结合当前热门的深度学习,提出了基于卷积神经网络(CNN)深浅层特征融合的语音情感识别方法以及基于深度神经网络(DNN)瓶颈层特征融合的语音情感识别框架。具体的研究工作如下:(1)综述了大量语音情感识别领域的相关文献,并对文献中的一些理论和常用的语音情感识别方法进行了仿真实验。详细介绍了语音情感识别的相关技术以及常用的分类模型等,为后续深入的研究工作做好充足的准备。(2)常用于语音情感识别的声学特征包括谱相关特征,韵律特征,音质特征以及上述特征的融合特征。这些特征往往只关注时域或频域,但是,语音信号中频域和时域存在相关性,而这种相关性在语音情感识别中起到关键的作用。语谱图作为语音信号的视觉表示,不仅表现了语音的时频特征,而且还反映了说话者的语言特征。本文利用卷积神经网络和语谱图进行语音情感识别研究,提出一个新型卷积神经网络,该网络可以将深层特征和浅层特征融合在一起,得到区分性更大的情感特征,采用目前较为流行的迁移学习的方法进行网络的训练和测试。实验结果表明,与传统的卷积神经网络相比较,所提出的深浅层特征融合的卷积神经网络在语音情感识别率上有一定的提升。(3)在利用卷积神经网络和语谱图进行语音情感识别的过程中,卷积神经网络中的每个层中的很多参数设置对于最终的识别效果有着很大影响,而在实验中很难找出这些参数的最优值,导致识别率无法取得显著的提高。近几年来,DNN在语音识别领域中的应用越来越多,本文设计了一种含有瓶颈层的DNN用来提取语音信号的瓶颈特征。该DNN可以将语音中的情感信息集中在瓶颈层,通过提取瓶颈特征来获取语音中包含的情感信息。然后,通过设置瓶颈层的位置提取不同层的瓶颈特征,融合不同瓶颈层的特征,结合支持向量机实现各类情感分类。实验结果表明,所提出的识别方法可以一定程度上提升语音情感识别率。