论文部分内容阅读
人脸表情识别一直以来都是情感研究的主要部分,同时也是未来社会人机交互的重要组成部分,具有十分重要的研究意义和广阔的应用场景,例如检测疲劳驾驶、心理医疗、远程教育等领域。在其发展过程中,大致根据研究方法可以构建两种识别模型:基于分类器模型和端到端的深度学习模型。在其解决方案上主要分成四个步骤:图像中的人脸检测、人脸区域关键点定位、表情特征提取和表情识别。前两个步骤已经在众多的领域得到了研究,但是人脸的关键点定位和特征的提取分类仍然是研究的核心。
上面讲述了两种主要的研究方法。当我们从所要研究的对象来考量,大致分为两种,基于静态图像和基于实时视频序列的人脸表情识别。为了解决从静态图像中分析人脸表情,我们提出了基于隔离损失的神经网络模型,其主要特点是利用卷积神经网络来从图像中获取人脸表情,相比于人工设计的Haar特征及其LBP特征,其具有更好的准确性和合理性。此外,本文的主要创新在于:解决人脸特征提取上的问题,通过新的损失函数——隔离损失,有效的提高了系统的判别性,并大大减少了误判;在视频序列的处理上,我们的主要提出了一种局部双向递归循环神经网络来解决此问题。其主要原理是在双向循环神经网络模型中,输入人脸的各个部位,然后提取各个部位在基于时间上的变化信息并输入到高层网络融合,最终得到整个脸部区域在不同时间上的表情变化。从而对人脸表情进行分类识别。为了进一步提高实时视频中的表情识别率,我们还结合时序信息和空间信息来进行最终的模型融合,进而更好的从视频序列中进行表情识别。
对于整个论文研究期间所作的工作,都在不同数据集上进行了测试。在基于静态图像中的人脸情感识别过程中,我们在FER-2013的数据集上进行了实验,所研究的隔离损失方法相比于以前在提高了人脸表情的识别率和鲁棒性效果提升10%。而在视频序列的表情识别中,我们在CK+、Oulu_CASIA和MMI三种数据集上进行测试。最终实验结果表明PHRNN网络模型取得了很好的识别效果,相比于其他模型,提取到了更加丰富的信息。利用该模型进行最终的表情预测,识别率提升了5%。
上面讲述了两种主要的研究方法。当我们从所要研究的对象来考量,大致分为两种,基于静态图像和基于实时视频序列的人脸表情识别。为了解决从静态图像中分析人脸表情,我们提出了基于隔离损失的神经网络模型,其主要特点是利用卷积神经网络来从图像中获取人脸表情,相比于人工设计的Haar特征及其LBP特征,其具有更好的准确性和合理性。此外,本文的主要创新在于:解决人脸特征提取上的问题,通过新的损失函数——隔离损失,有效的提高了系统的判别性,并大大减少了误判;在视频序列的处理上,我们的主要提出了一种局部双向递归循环神经网络来解决此问题。其主要原理是在双向循环神经网络模型中,输入人脸的各个部位,然后提取各个部位在基于时间上的变化信息并输入到高层网络融合,最终得到整个脸部区域在不同时间上的表情变化。从而对人脸表情进行分类识别。为了进一步提高实时视频中的表情识别率,我们还结合时序信息和空间信息来进行最终的模型融合,进而更好的从视频序列中进行表情识别。
对于整个论文研究期间所作的工作,都在不同数据集上进行了测试。在基于静态图像中的人脸情感识别过程中,我们在FER-2013的数据集上进行了实验,所研究的隔离损失方法相比于以前在提高了人脸表情的识别率和鲁棒性效果提升10%。而在视频序列的表情识别中,我们在CK+、Oulu_CASIA和MMI三种数据集上进行测试。最终实验结果表明PHRNN网络模型取得了很好的识别效果,相比于其他模型,提取到了更加丰富的信息。利用该模型进行最终的表情预测,识别率提升了5%。