论文部分内容阅读
人工智能大体可分为两个研究方向:感知智能和认知智能。感知智能研究进展讯速,比如图片分类、自然语言翻译,但认知智能发展速度有限,比如看图说话、视觉描述等。将自然语言和计算机视觉结合起来研究,有利于搭起人类和机器之间沟通的桥梁,促进认知智能的研究。由于近些年深度学习技术的发展,建立起视频和自然语言的连接将被视为视频理解的终极目标。视频内容描述不同于视频分类、物体检测等标签式的粗粒度视觉理解任务,而是需要用通顺准确的一句话来描述视频内容。这不仅需要识别出视频中的物体,还需要理解视频中物体之间的相互关系,同时由于视频内容描述风格多样,比如对场景的抽象描述,对各物体之间关系的描述,对视频中物体行为和运动的描述等,这将给视频内容描述研究带来很大的挑战性。传统的视频内容描述算法主要采用基于语言模板的方法或基于检索的方法。基于语言模板的方法,由于受到固定语言模板的限制,只能生成形式单一缺乏灵活性的句子。而基于检索的方法过于依赖检索视频库的大小,当数据库中缺少与待描述视频相似的视频时,生成的描述语句将和视频内容存在较大的偏差。同时这两种方法都需要在前期对视频进行复杂的预处理过程,而对后端的语言序列部分优化不足,从而导致生成的语句质量较差。随着深度学习技术的进步,基于编码解码器的序列学习模型在视频内容描述问题中取得突破性的进展。本文将对视频内容描述的算法进行相关研究,主要工作总结如下:1.提出一种新的基于多模态语义注意力机制的视频内容描述方法。视频内容描述问题的关键首先在于视频特征的提取,由于视频中不同模态信息能够互相辅助,对视频多模态信息进行编码有助于挖掘更多的语义信息。同时由于通常的视频内容描述算法只考虑视频特征而忽略了视频高级语义属性信息,为了提高生成描述句子的质量,本文还探讨了如何提取高层语义属性以及将语义属性运用到视频内容描述任务上来。本文主要设计了一个融合多模态语义属性的编码解码器网络,在编码阶段,从多模态信息出发,采用视频帧、光流帧和视频片段相结合的方法得到视频特征向量。同时检测和生成视频的高级语义属性标签,为了获得更有效的视觉特征和语义属性,将语义属性标签生成阶段的辅助分类损失和解码器网络损失进行同时优化。在解码阶段,我们提出结合语义属性的注意力机制算法,将语义属性向量融入到传统的循环神经网络权重矩阵中,并且在生成句子单词的每一时刻,采用注意力机制来关注特定的语义属性。最后在两个流行的视频描述数据集上进行充分地实验来验证所提出新模型的性能。2.对解码器端语言生成部分优化不足的问题进行分析与研究。当前大部分的视频内容描述算法以及本章所提出的新模型都采用最大似然对语言序列建模,用交叉熵损失进行训练优化,这将带来两个明显的缺陷:一是曝光偏差问题,模型在训练的时候,解码器每个时刻的输入来自训练集中真实词,而模型测试的时候,每个时刻输入来自上一时刻预测到的单词。如果其中某一个单词预测不够准确,错误可能会向下传递,导致后面生成的单词质量越来越差。二是训练指标和评价准则不统一的问题。训练阶段采用交叉熵损失函数来最大化后验概率,而评价阶段采用BLEU、METEOR、CIDER等客观评价准则,这种不一致导致模型无法充分对视频内容描述生成的评价指标充分优化。为了解决上述两个问题本文引入基于自判别序列训练的强化学习算法对我们提出的新模型进行改进,采用直接优化客观评价指标对模型进行进一步训练,然后用实验来证明这种方法在视频内容描述问题上的有效性。