论文部分内容阅读
随着计算机视觉、模式识别等领域的快速发展,人脸表情识别技术已经成为当今研究热点。与以往基于静态图像不同,基于视频提取出的表情特征同时包含静态和动态信息,静态信息主要体现在从每幅图像中提取表情特征,而动态信息则体现了多帧图像集合而成的整体表情的变化过程。此外,近几年深度学习在许多应用中的性能表现超越了传统的机器学习方法,如何运用深度学习提高表情识别率成为了一个重要的研究方向。
本论文的主要研究内容包括:
首先,提出了基于特征点的两阶段人脸跟踪算法。算法不仅能够完成刚性的头部跟踪,还能够跟踪变形的人脸,即能够实时地获取旋转、平移以及面部动作参数。基于特征点指的是从Candide3三维人脸模型表面选取出一些特征点,通过对特征点的跟踪使Candide3三维人脸模型实时地拟合到面部。为获得精确的特征点跟踪,分别采用基于图像匹配和基于纹理模型匹配这两个跟踪阶段完成特征点的跟踪,然后利用扩展卡尔曼滤波器完成2D到3D的变化,即用二维的特征点坐标估算出三维模型的参数。通过实验验证了跟踪算法能够在普通计算机硬件上实时地跟踪人脸姿态和表情变化。
其次,研究了基于深度学习的表情识别方法。研究了深度堆叠网络DSN和回声状态网络ESN,在此基础上,将具有“回声”特性的ESN网络作为DSN网络的基本模块,应用DSN网络的“堆叠”结构,提出了ES-DSN网络(Echo State-DeepStacking Network)。此外,针对Cohn-Kanade表情数据库训练样本结构单一,数目有限,不能满足深度学习大训练样本需求这一情况,结合表情分类研究需要,通过合理优化组合图像序列的方式,对表情数据库进行扩充和规范。通过实验验证了扩展表情数据库的有效性和ES-DSN网络的表情识别能力。
最后,在提出的ES-DSN网络的基础上,对该网络模型进行改进。采用小批量梯度下降法对ESN模块中原本固定的输入权重和循环权重进行训练,进一步提出了学习输入权重和循环权重的LES-DSN网络(Learning Echo State-Deep StackingNetwork)。实验分析了LES-DSN网络的多个关键参数对表情识别准确率的影响,并通过多组对比实验证明基于LES-DSN网络的人脸表情识别具有更高的准确率与鲁棒性。
本论文的主要研究内容包括:
首先,提出了基于特征点的两阶段人脸跟踪算法。算法不仅能够完成刚性的头部跟踪,还能够跟踪变形的人脸,即能够实时地获取旋转、平移以及面部动作参数。基于特征点指的是从Candide3三维人脸模型表面选取出一些特征点,通过对特征点的跟踪使Candide3三维人脸模型实时地拟合到面部。为获得精确的特征点跟踪,分别采用基于图像匹配和基于纹理模型匹配这两个跟踪阶段完成特征点的跟踪,然后利用扩展卡尔曼滤波器完成2D到3D的变化,即用二维的特征点坐标估算出三维模型的参数。通过实验验证了跟踪算法能够在普通计算机硬件上实时地跟踪人脸姿态和表情变化。
其次,研究了基于深度学习的表情识别方法。研究了深度堆叠网络DSN和回声状态网络ESN,在此基础上,将具有“回声”特性的ESN网络作为DSN网络的基本模块,应用DSN网络的“堆叠”结构,提出了ES-DSN网络(Echo State-DeepStacking Network)。此外,针对Cohn-Kanade表情数据库训练样本结构单一,数目有限,不能满足深度学习大训练样本需求这一情况,结合表情分类研究需要,通过合理优化组合图像序列的方式,对表情数据库进行扩充和规范。通过实验验证了扩展表情数据库的有效性和ES-DSN网络的表情识别能力。
最后,在提出的ES-DSN网络的基础上,对该网络模型进行改进。采用小批量梯度下降法对ESN模块中原本固定的输入权重和循环权重进行训练,进一步提出了学习输入权重和循环权重的LES-DSN网络(Learning Echo State-Deep StackingNetwork)。实验分析了LES-DSN网络的多个关键参数对表情识别准确率的影响,并通过多组对比实验证明基于LES-DSN网络的人脸表情识别具有更高的准确率与鲁棒性。