论文部分内容阅读
情感识别是近年来模式识别领域的研究热点,是实现自然人机交互的一个重要研究课题。心理学认为:人类在学习过程中会产生一些认知情感状态,从而影响学习效果。而目前的计算机教学系统缺乏与学习者的情感交流,教学效果与传统的面对面教学有明显差异。因此,研究如何识别学习者的认知情感状态是实现具有情感能力的智能教学系统的关键。脸部表情是人类情感最直接的外在反映。目前的研究主要是从图像中提取表情的空间静态特征用于情感识别。但表情变化是动态的,而且在现代人机交互中,计算机获取的往往是包含了时域信息的视频数据,仅用静态特征很难得到准确的识别结果。因此,需要提取视频中表情的时空特征,分析情感的动态性,以提高识别效果。但视频数据的高维度和识别的实时性要求,给情感特征提取及识别算法的设计提出了很大挑战。本文针对如何提取视频中有效的表情时空特征以及实现对认知情感状态的高效且准确识别的问题展开研究,提出了若干新颖的算法,主要内容和创新工作包括以下几个方面:1、针对基于表情时空特征的情感识别问题对国内外研究现状进行了全面综述。研究并讨论了多个关键问题,包括:离散情感和维度情感的表示方法、认知情感状态和基本情感的区别、自然情感和表演情感的区别、情感实验数据集的选择、视频的预处理算法(包括人脸检测、仿射变换和直方图均衡化)、表情的时空特征提取算法(包括几何特征、外观特征和混合特征)、情感分类算法(包括支持向量机(SVM)、K临近和自适应增强)以及情感识别的实时性要求。2、对主动外观模型(AAM)进行了深入的研究,包括形状模型、纹理模型和外观模型的建立算法以及特征点的拟合算法。在此基础上,提出了一种脸部规范差分形变(FNDD)时空特征,阐述了该特征的设计思想和提取算法;FNDD特征以AAM特定人模型定位的脸部形状为基础,将该形状去除刚性形变,并基于AAM通用模型进行几何规范化,与参考脸部形状进行差分,得到用于描述表情变化的时空几何特征;将FNDD特征用多种分类算法进行验证,实验结果证明了其在认知情感状态识别中的有效性。3、对现代图形处理器(GPU)的体系结构及其计算模型进行了深入研究。在此基础上,针对AAM拟合算法计算复杂度高,限制了其在实时情感识别系统中应用的问题,提出了一种基于GPU的并行AAM拟合算法;通过分析AAM拟合算法的“热点”并结合GPU高度并行结构的特征,提出了以AAM模型像素为单位的细粒度并行算法设计思想,充分利用了GPU的硬件资源。为了进一步提高算法速度,还提出了一种新颖的GPU矩阵向量相乘算法,该算法能够根据矩阵形状和行列大小自动调节线程的分配,以达到高效率计算的目的。实验结果表明:该算法对不同形状和大小的矩阵都能保持较高的计算性能;在不同数据维度上对并行AAM拟合算法进行了实验,结果表明该算法在处理高维纹理时达到了几十倍的加速比,完全能够满足实时情感识别的要求。4、对局部时空特征的思想和相关算法进行了深入研究,包括Harris3D特征点提取算法、HOG/HOF和HOG3D特征描述算法和词袋模型。在此基础上,根据人脸表情的动态性提出了基于表情局部时空特征的认知情感状态识别方法。包括三种算法:第一种算法基于人脸几何归一化和Harris3D算法提取脸部的动态特征点,并结合HOG/HOF或HOG3D特征描述算法以及词袋模型对认知情感状态进行识别。第二种算法将脸部纹理投影到AAM脸部规范形状上,提出了脸部规范纹理序列(FNTS),在FNTS上采用HOG/HOF或HOG3D提取局部时空特征,用SVM对认知情感状态进行识别。第三种算法是在第二种算法的基础上融合了脸部规范差分形变(FNDD)特征,将形状和局部纹理结合起来,用SVM对认知情感状态进行识别。实验结果表明这三种算法均能有效的对认知情感状态进行识别,其中第三种算法获得了最高识别率,验证了其特征融合思想的有效性。5、对无监督特征学习的各种算法进行了分析,并深入研究了其中的堆叠卷积ISA(SISA)模型。在该模型的基础上,结合AAM提出了一种无监督提取表情时空特征的认知情感状态识别算法。该算法利用AAM模型从表情视频序列中提取脸部规范差分形变(FNDD)特征和脸部规范纹理序列(FNTS),在FNTS上采用SISA模型无监督学习和提取表情变化的时空纹理特征,并在决策层上融合了FNDD特征用SVM对认知情感状态进行识别。实验结果表明该算法能够快速而有效的提取脸部表情的时空特征,并获得了超过90%的情感识别率。