【摘 要】
:
作为人类传递和表达情感的重要方式,表情基本不受性别、种族和个人背景影响。精准识别人脸表情有助于实现更智能的人机交互。研究表明,表情可以通过面部活跃区域的动态变化来表示,而如何高效、全面地捕获面部活跃区域的特征一直是研究者们关注的重点。此外,针对自然条件下的人脸表情识别研究,因数据集标注者的主观性和视频本身表情的不确定性,导致部分样本标签被错误标注,进而使得网络学习到错误的特征,最终导致自然条件下人
论文部分内容阅读
作为人类传递和表达情感的重要方式,表情基本不受性别、种族和个人背景影响。精准识别人脸表情有助于实现更智能的人机交互。研究表明,表情可以通过面部活跃区域的动态变化来表示,而如何高效、全面地捕获面部活跃区域的特征一直是研究者们关注的重点。此外,针对自然条件下的人脸表情识别研究,因数据集标注者的主观性和视频本身表情的不确定性,导致部分样本标签被错误标注,进而使得网络学习到错误的特征,最终导致自然条件下人脸表情识别结果不尽如人意。本文针对如何全面地捕获面部活跃区域特征和如何解决自然条件下视频表情数据集中样本标签的不确定性问题进行了深入研究,主要工作包含以下两个方面:(1)为了高效且完整地捕获面部活跃区域的特征,提出了基于局部特征和全局特征融合的人脸表情识别模型。首先,构造一个基于时空注意力的局部梯度层级循环神经网络(Spatio-Temporal Attention Part-Gradient-based Hierarchical Recurrent Neural Network,STA-PGHRNN)。该网络利用面部关键部位近似表示面部活跃区域,通过提取面部四个关键部位的特征实现聚焦面部活跃区域的目的。其次,提出了一种新的空间注意力机制对人脸各部位的特征进行自适应重定向。同时为了避免STA-PGHRNN忽略其他与表情有关但非面部关键部位的区域特征,构建了一个全局特征提取网络(SE-Res Net-50-LSTM)从面部视频序列中提取全局特征来对STA-PGHRNN提取的局部特征进行补充。最后,为了融合局部关键部位特征和全局特征,使用随机搜索算法对这两个网络进行决策级融合。在多个公开数据集上的实验结果证明了本模型的优越性。(2)针对使用面部关键部位近似表示面部活跃区域的局限性以及自然条件下视频表情数据集中样本标签的不确定性,提出了一个基于面部运动单元和标签修正的人脸表情识别模型。一方面,先构建了一个深度卷积神经网络提取全局特征,并基于专家先验知识,利用面部肌肉运动单元(AU)全面且精准地界定面部活跃区域,然后将这些区域的特征从全局特征中抽离出并送入构建的Ro I(感兴趣区域)特征提取网络中进行整合。另一方面,鉴于自然条件下数据集中部分样本存在不确定性,为此,在原有模型基础上嵌入标签修正模块,利用自注意力机制学习样本的确定性分数,借此筛选出低确定性样本并对其标签进行修正,最后利用逻辑加权交叉熵损失来增强高确定性样本对模型的贡献,削弱低确定性样本对模型的影响。实验结果表明,本模型在实验室条件和自然条件下的数据集上都取得了较好的效果。
其他文献
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
异常检测作为计算机视觉中的一个重要分支,广泛地应用于公共安全、欺骗检测、视频监控等领域中。“异常”数据根据实际情况的变化而有所不同,本文中的异常主要是指预期以外的事件,通常伴随图像模糊、颜色失真、光流突变等。受制于异常数据量较少且分布广泛、标记数据的耗时等问题,结合一分类思想的生成对抗网络模型已成为主流,本文首先介绍当前较为流行的基于重构的异常检测模型,训练时只使用正常数据进行训练,学习到正常数据
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征
随着智能信息化时代的到来,诸如图片,视频,文本以及音频等不同模态数据在互联网上与日俱增,这些多模态数据以不同的形式描述着生活中复杂纷繁的场景,并为彼此提供了有用的互补信息。不同模态的数据在其原始形态上呈现出明显的异质性,难以直接将它们从语义层面建立关联。因此,需要将不同模态数据映射到共有子空间并减小它们之间的差异性。跨模态表示学习旨在减小不同模态数据在特征层面的差距,建立起模态间的语义联系并扩大模
目标检测是计算机视觉中的重要分支,由于不同场景之间的特征分布差异(如背景、光照等),在公共数据集上训练的目标检测框架在现实场景中使用时往往会出现性能下降的问题。解决该问题的方法是采用域自适应技术使在源域训练的模型在目标域中也可以很好的使用,但是传统的自适应方法通过对齐不同域之间的边缘分布以减少特征分布差异,但是可能会导致负迁移的问题。此外,仅仅考虑了单一目标域的自适应场景,限制了模型的适用范围。文
数字化时代的到来引领了三维模型的发展,人们对三维模型的研究不断深入,三维模型的应用也越发广泛。其中,以线形方式表示的三维模型抽象地描述了物体的形状或结构特征,在计算机中不仅存储方便,而且易于交互。在此背景下,本文围绕三维模型的线形表达方式,以原子模型和线框模型为研究对象,调研分析了原子模型在建模和渲染、线框模型提取方面的相关工作,对于原子模型的建模和渲染、线框模型的提取过程中存在的问题进行了研究,
在如今信息技术的快速发展中,物联网技术被不断地普及,人机交互是当前领域的一个热门方向。与此同时,人们的工作生活中,久坐行为已经成为一个普遍存在的现象,但是人们对于久坐行为对身体带来的健康风险却知之甚少。本文将创新性地提供两种使用Wi-Fi信道状态信息进行久坐行为识别的系统方案,使用机器学习模型以及并行长短时记忆(Long Short-Term Memory,LSTM)神经网络和卷积神经网络(Con
区块链对计算和存储资源的高需求严重限制了区块链的发展。特别的,在包括物联网在内的资源有限的环境中,区块链难以实现大规模应用。将复杂的区块链计算任务从物联网终端用户卸载到边缘或云是缓解终端用户计算压力的有效解决方案。云/边缘向物联网终端用户提供付费计算资源,物联网终端用户得以执行区块链计算任务而获益。因此,合理的云/边缘计算资源分配与定价对云/边缘和物联网终端用户的收益至关重要。应用纠删码技术是减少
随着人工智能和深度学习的快速发展,跨模态识别研究有了很大的突破。视频描述生成是一个结合了计算机视觉与自然语言的跨模态任务,它的目的是将给定的视频转换为人类可以理解的自然语言序列。简而言之,理解视频的内容对于视力正常的人来说是件简单的任务,但是对于机器或视力残障人士来说却是困难的,它可以帮助视力残障人士理解视频中的信息。视频描述生成在视频检索、人机交互等众多领域都有潜在的应用前景,这需要对视频和自然
伴随着经济、科技水平的不断提高,人们在日常生活中对机器智能化的需求也日益增加。在如今的人工智能浪潮中,机器是否具有情感,是决定机器智能化和人性化程度的关键因素。为此,近年来很多人工智能领域的专家都展开了对情感计算的相关研究。而情感识别正是情感计算领域中最为关键的一项技术。目前关于情感识别的研究通常都只关注于单一模态,而人类的情感表达方式是多模态的,因此,仅基于单模态的情感识别方法可能无法捕捉到个体