基于深度学习的语音情感识别

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:bafjeght
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感是人类的一种丰富的心理行为,一直是很多科研领域的研究热点。语音信号是人与人之间最自然的交流方式,它不仅包含要传递的内容,而且包含丰富的情感因素,并已应用于情感研究。语音情感识别是以语音作为情感的载体来研究语音中各种情感的形成与变化,让计算机可以通过语音来解析出说话人的具体情感状况,从而使得人机交互变得更加人性化。在语音情感识别领域中,情感特征参数的提取和分类模型的训练是目前重要的研究方向,它们的好坏会直接影响着整个系统的识别率。本文结合当前热门的深度学习,提出了基于卷积神经网络(CNN)深浅层特征融合的语音情感识别方法以及基于深度神经网络(DNN)瓶颈层特征融合的语音情感识别框架。具体的研究工作如下:(1)综述了大量语音情感识别领域的相关文献,并对文献中的一些理论和常用的语音情感识别方法进行了仿真实验。详细介绍了语音情感识别的相关技术以及常用的分类模型等,为后续深入的研究工作做好充足的准备。(2)常用于语音情感识别的声学特征包括谱相关特征,韵律特征,音质特征以及上述特征的融合特征。这些特征往往只关注时域或频域,但是,语音信号中频域和时域存在相关性,而这种相关性在语音情感识别中起到关键的作用。语谱图作为语音信号的视觉表示,不仅表现了语音的时频特征,而且还反映了说话者的语言特征。本文利用卷积神经网络和语谱图进行语音情感识别研究,提出一个新型卷积神经网络,该网络可以将深层特征和浅层特征融合在一起,得到区分性更大的情感特征,采用目前较为流行的迁移学习的方法进行网络的训练和测试。实验结果表明,与传统的卷积神经网络相比较,所提出的深浅层特征融合的卷积神经网络在语音情感识别率上有一定的提升。(3)在利用卷积神经网络和语谱图进行语音情感识别的过程中,卷积神经网络中的每个层中的很多参数设置对于最终的识别效果有着很大影响,而在实验中很难找出这些参数的最优值,导致识别率无法取得显著的提高。近几年来,DNN在语音识别领域中的应用越来越多,本文设计了一种含有瓶颈层的DNN用来提取语音信号的瓶颈特征。该DNN可以将语音中的情感信息集中在瓶颈层,通过提取瓶颈特征来获取语音中包含的情感信息。然后,通过设置瓶颈层的位置提取不同层的瓶颈特征,融合不同瓶颈层的特征,结合支持向量机实现各类情感分类。实验结果表明,所提出的识别方法可以一定程度上提升语音情感识别率。
其他文献
<正>2017年是辽宁省"营商环境建设年",国网锦州供电公司上下不断深入贯彻落实辽宁省电力有限公司优化营商供用电环境建设年会议精神,以《国网锦州供电公司优化营商供用电环境
在磁浮列车悬浮控制系统设计中,间隙传感器信号的滤波处理是影响控制效果的重要因素之一。针对磁悬浮系统电磁干扰大,控制实时性要求高的特点,提出了应用卡尔曼滤波的方法处
在金融体系中,单家金融机构可以通过增加表外业务规模、提升杠杆率或者扩大资产规模来调整资产结构,形成单家机构没有破产风险的状态。然而因为表外业务及风险转移具有显著的
<正>将台灯放在写字台的左前方,可有效避免产生眩光。台灯的灯罩应调节到适当的角度,以保护视力。人看书时,最佳位置应为眼睛距离台灯平面0.4米,离光源水平距离0.6米,台灯距
期刊
<正>微课是以现代信息技术为依托、以学科教学内容为核心、以学生的认知水平为参考的一种新式教学工具和授课方法,具有短小精悍、针对性强的特点,能够进一步改善课堂教学的气
沙尘天气对对气候、大气动力场和热力场、辐射、云微物理学与碳循环产生影响外,还对生物生长、海洋温盐环流、环境、人体健康、工农牧业以及交通运输业等产生一定影响,它涉及
本文主要研究投资因素下广义保险模型的破产概率问题。文章所考虑的盈余过程是古典Cramer-Lundberg模型的推广,它涉及随机利率,独立于盈余过程的安全附加函数,随机波动模型,
社会治安形势日益复杂严峻带来的挑战,人民群众的较高期待,内部压力和弊端的累积,客观上要求作为社会管理主体的公安机关寻求警务改革,通过自我革新实现跨越。近年来,各地公
生长素在植物生长发育过程中具有重要的调控作用。植物体对生长素的响应,主要是通过生长素加强AUX/IAA蛋白和泛素连接酶复合体SCFTIR的结合,使AUX/IAA蛋白降解,影响下游生长
<正>"尽量用方言,因为普通话不太容易和村民沟通。""巧妙地运用问答的形式进行调研,因为村民容易在谈话时偏离主题。"7月1日,河南科技大学的60名同学,接受了洛阳一拖集团市场