论文部分内容阅读
情绪识别作为情感计算领域一项非常重要的研究内容,在教育、医疗、人机交互以及交通安全等领域均有诸多应用。现有的情绪识别方法大多数采用视频或生理信号等单模态信息进行识别,但是这种方式并不能充分表征不同的情绪状态,限制了情绪识别系统的性能。随着神经网络的快速发展,结合多模态信息并利用神经网络进行情绪识别成为国内外学者研究的热点内容。但基于神经网络的情绪识别模型提取的大多为高维特征,通过简单拼接不同模态的高维特征进行融合会对模型的复杂性和分类性能带来一定影响。本文针对以上问题,采用一种结合多模态紧凑型双线性池化和注意力机制的双模态情绪识别系统,融合来自雷达和视频传感器的双模态信息,实现情绪的有效识别。本文主要工作如下:1、介绍了眼部和嘴部连续图片帧的提取方法,阐述了卷积神经网络和长短时记忆网络的相关基本理论。在此基础上,构造了基于连续图片帧的情绪识别模型。结果表明,该模型对平静、高兴、悲伤、恐惧四种情绪状态的识别准确率达到了78.44%。2、介绍了从雷达回波信号和PPG信号中分别提取呼吸信号和心跳信号的方法。针对实验过程中环境光强突然变化造成心跳信号失真的问题,提出了基于相位追踪的心跳信号重构算法,该算法可以有效恢复失真信号的相位,并重构心跳信号,增强了心跳信号提取方法的鲁棒性;针对呼吸信号和心跳信号的特点,构造了基于多源生理信号的情绪识别模型。结果显示,该模型对四种情绪状态的识别准确率达到了71.56%。3、提出了利用多模态紧凑型双线性池化融合不同模态情绪特征的方法,分析了其原理及实现步骤,采用注意力机制对融合后的特征进行筛选,利用神经网络构造了基于连续图片帧和生理信号的双模态情绪识别模型。4、搭建了情绪识别实验平台,采集受试者在平静、高兴、悲伤、恐惧四种情绪状态下的面部视频和生理信号。进行特征融合算法与特征直接拼接的对比验证实验,并将其与单模态情绪识别结果进行对比。结果表明,采用多模态紧凑型双线性池化算法进行特征融合并结合注意力机制,情绪识别测试准确率为87.92%,较基于连续图片帧的情绪识别准确率提升了9.48%,较基于生理信号的情绪识别准确率提升了16.36%,较两种模态特征直接拼接后的情绪识别准确率提升了17.29%。