论文部分内容阅读
增强现实技术(Augmented Reality,AR)融合了虚拟世界和真实世界的信息,并给予了人类超越现实的感官体验,具有广阔的应用场景和市场。虚拟人物与人类的AR交互技术备受人们的期待,可以应用于动漫、游戏、心理治疗等多个领域。目前该交互技术只具备了一定的“听”、“说”、“读”、“看”的能力,而没有感受交互者情绪的能力。本文从情感分析的角度出发,研究动漫人脸和真实图像场景的情感识别,为实现虚拟人物和人类AR智能交互提供情感分析基础。本文的主要研究内容如下:(1)提出了一种基于无监督学习的动漫人脸情感识别算法。由于带情感标签动漫人脸数据的缺乏,该方案先将动漫人脸转换至对应的真实人脸,然后利用真实人脸的表情识别模型对转换后的人脸进行情感识别。首先,在动漫转真实人脸任务上,针对现有通用方法转换的人脸出现崩坏现象和不相关的问题,本文提出了一种基于不成对样本训练的动漫到真实人脸转换的方法,利用生成对抗网络来学习图像在动漫和真实人脸域的联合分布。为了使生成的人脸更清晰,并恢复崩溃后的人脸,本文将面部图像切分成几个局部区域,并提出基于全局和局部对抗学习的方法,不仅学习了整体面部联合分布,还学习了局部区域的联合分布,使得生成的人脸具有高的图像质量与完整的面部五官。其次,受神经网络风格转移的启发,本文在人脸识别网络定义的特征空间中采用了感知损失的方法来保证转换后的人脸特征和身份与转换前一致。最后,在情感识别模块,本文采用了预训练的真实人脸情感识别模型。本文通过一系列的实验证明了所提出的动漫到真实人脸转换的方法和无监督动漫人脸表情识别策略的有效性。(2)提出了一种基于信息传递神经网络的图像场景情感识别算法。图像中的不同实例会对情绪产生不同的影响,为了表达跨实例的和多层次的情感,本文将图像建模成情感图,所有的实例都被看作是图中的节点,图中每个节点相互连接,提出了基于信息传递神经网络的情感识别算法。该方法能够通过实例和实例之间的边传递情感信息来学习,并在多个实例之间进行情感的交互。此外,本文还利用自我注意模型来学习每个实例对情感的贡献度,通过对所有实例的情绪表征进行加权求和计算来得到综合情绪特征。最后,将整个图像的全局多层次特征和所有实例的综合情感特征合并起来作为图像场景情感的最终表达,用于图像场景情感识别。实验表明,本文提出的方法在图像场景情感分类任务上取得了显著的效果。