论文部分内容阅读
情感识别是人机交互领域中一个重要的研究课题,它可以在教育、医疗、安全驾驶、游戏开发等领域发挥重要的作用。面部表情和语音是人类情感表达中最重要的两个部分,其中人脸表情占55%、语音占38%。早期的情感识别主要是提取手工设计的特征,再利用传统的机器学习方法进行识别。但随着计算机技术的发展,对识别准确率和鲁棒性等要求的提高,传统的机器学习方法已显现出其局限性。近年来深度学习在各个领域大放异彩,目前的情感识别研究也多是基于深度学习展开的。基于深度学习的情感识别通常采用普通的卷积神经网络(Convolutional Neural Networks,CNN),但普通的CNN训练出来的模型参数量过多,且没有考虑情感具有稀疏性的特点,人脸表情不同部位贡献的情感信息程度不同,语音信号不同时间段贡献的情感信息程度也不同,因此传统的CNN并不高效。目前主要有针对单模态和多模态的情感识别,但现有的多模态情感数据库基本是在实验室理想条件下录制的,不适用于真实世界场景的情感识别应用,且多模态情感识别模型通常非常庞大,使得识别耗时过长,不适于搭建一个实时的情感识别系统,也不适合应用于下位机。本文主要针对的是单模态的情感识别,分别对面部表情与语音情感识别进行研究,主要工作内容如下:(1)对于面部表情识别,为了解决普通CNN参数量过多且难以关注人脸面部表情不同部位情感信息贡献程度不同的问题,本文提出了SE-Mini-Xception模型,该模型在原有Xception基础上,通过修剪网络层数得到Mini-Xception,然后与注意力模块(SE block)结合,得到了带有注意力机制的轻量级卷积神经网络模型。SE-Mini-Xception在公开的真实人脸表情数据库FERPlus与RAF-DB上进行了验证,分别获得了82.43%和84.35%的识别准确率,比原有Xception模型仅下降2~3个百分点,同时Xception模型大小为239M,而SE-Mini-Xception模型大小仅为2.71M,大大减少了模型参数量。实验表明,SE-Mini-Xception利用可分离卷积与注意力机制,使得模型参数量大大减少的同时性能没有下降太多,能有效应用于人脸表情识别。(2)对于语音情感识别,为了解决普通CNN不能有效处理时序特征的问题,本文引入可分离卷积与长短时记忆网络(Long Short-Term Memory,LSTM),设计了SepCNN-LSTM模型应用于语音情感识别。实验在公开的语音情感语料库RAVDESS上进行验证,首先对原始语音进行端点检测和滤波去噪得到了有效语音段,然后再提取特征进行语音情感识别,使用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征训练的1D Sep-CNN-LSTM模型和使用语谱图特征训练的2D Sep-CNN-LSTM模型在测试集上分别获得了90.77%和82.21%的识别准确率。实验表明,Sep-CNN-LSTM模型能够有效应用于语音情感识别。(3)基于本文提出的SE-Mini-Xception模型和1D Sep-CNN-LSTM模型,分别设计与实现了实时面部表情识别系统和语音情感识别系统,并部署于JETSON NANO。经过测试,这两个系统性能都能满足基本的情感识别任务。