基于深度学习的视频内容描述研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：chenzhong1983

【摘要】

：

【作者】

：

孙亮

【出处】

：

中国科学技术大学

【发表日期】

：

2019年08期

【关键词】

：

视频内容描述多模态注意力机制语义属性深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人工智能大体可分为两个研究方向:感知智能和认知智能。感知智能研究进展讯速,比如图片分类、自然语言翻译,但认知智能发展速度有限,比如看图说话、视觉描述等。将自然语言和计算机视觉结合起来研究,有利于搭起人类和机器之间沟通的桥梁,促进认知智能的研究。由于近些年深度学习技术的发展,建立起视频和自然语言的连接将被视为视频理解的终极目标。视频内容描述不同于视频分类、物体检测等标签式的粗粒度视觉理解任务,而是需要用通顺准确的一句话来描述视频内容。这不仅需要识别出视频中的物体,还需要理解视频中物体之间的相互关系,同时由于视频内容描述风格多样,比如对场景的抽象描述,对各物体之间关系的描述,对视频中物体行为和运动的描述等,这将给视频内容描述研究带来很大的挑战性。传统的视频内容描述算法主要采用基于语言模板的方法或基于检索的方法。基于语言模板的方法,由于受到固定语言模板的限制,只能生成形式单一缺乏灵活性的句子。而基于检索的方法过于依赖检索视频库的大小,当数据库中缺少与待描述视频相似的视频时,生成的描述语句将和视频内容存在较大的偏差。同时这两种方法都需要在前期对视频进行复杂的预处理过程,而对后端的语言序列部分优化不足,从而导致生成的语句质量较差。随着深度学习技术的进步,基于编码解码器的序列学习模型在视频内容描述问题中取得突破性的进展。本文将对视频内容描述的算法进行相关研究,主要工作总结如下:1.提出一种新的基于多模态语义注意力机制的视频内容描述方法。视频内容描述问题的关键首先在于视频特征的提取,由于视频中不同模态信息能够互相辅助,对视频多模态信息进行编码有助于挖掘更多的语义信息。同时由于通常的视频内容描述算法只考虑视频特征而忽略了视频高级语义属性信息,为了提高生成描述句子的质量,本文还探讨了如何提取高层语义属性以及将语义属性运用到视频内容描述任务上来。本文主要设计了一个融合多模态语义属性的编码解码器网络,在编码阶段,从多模态信息出发,采用视频帧、光流帧和视频片段相结合的方法得到视频特征向量。同时检测和生成视频的高级语义属性标签,为了获得更有效的视觉特征和语义属性,将语义属性标签生成阶段的辅助分类损失和解码器网络损失进行同时优化。在解码阶段,我们提出结合语义属性的注意力机制算法,将语义属性向量融入到传统的循环神经网络权重矩阵中,并且在生成句子单词的每一时刻,采用注意力机制来关注特定的语义属性。最后在两个流行的视频描述数据集上进行充分地实验来验证所提出新模型的性能。2.对解码器端语言生成部分优化不足的问题进行分析与研究。当前大部分的视频内容描述算法以及本章所提出的新模型都采用最大似然对语言序列建模,用交叉熵损失进行训练优化,这将带来两个明显的缺陷:一是曝光偏差问题,模型在训练的时候,解码器每个时刻的输入来自训练集中真实词,而模型测试的时候,每个时刻输入来自上一时刻预测到的单词。如果其中某一个单词预测不够准确,错误可能会向下传递,导致后面生成的单词质量越来越差。二是训练指标和评价准则不统一的问题。训练阶段采用交叉熵损失函数来最大化后验概率,而评价阶段采用BLEU、METEOR、CIDER等客观评价准则,这种不一致导致模型无法充分对视频内容描述生成的评价指标充分优化。为了解决上述两个问题本文引入基于自判别序列训练的强化学习算法对我们提出的新模型进行改进,采用直接优化客观评价指标对模型进行进一步训练,然后用实验来证明这种方法在视频内容描述问题上的有效性。

其他文献

韩国真实事件改编电影研究（2001-2014）

本文以近代韩国真实事件改编影片为主要研究范围,以其独特的叙事结构、真实的现场重现以及多元的视听空间为研究对象,对于韩国真实事件改编题材的结构类型、视听与电影史意义进行研究分析。此研究主要为填补世界范围内对于真实事件改编这一题材电影研究的空白,通过分析韩国此类题材电影所获得的巨大成功,使我国得到更多的发展启示。绪论部分,首先对韩国真实事件改编电影的现状加以分析,明确在此类题材的学术研究上学界仍存在大

学位

真实事件改编叙事视听

内镜下逆行胰胆管造影术(ERCP)的无缝隙护理

目的探讨对成功进行内镜下逆行胰胆管造影术的患者进行无缝隙护理的意义,并对患者的心理和满意度进行分析,为临床上无缝隙护理的实施提出参考。方法回顾性分析本院2009年2月

期刊

逆行胰胆管造影术无缝隙护理心理护理患者满意度

“一带一路”下的马来西亚华人与中马文化交流

中国与马来西亚自1974年建交以来,在政治、经济、文化等领域的交往不断加强,合作日益频繁,关系日益紧密。在中马文化交流中,几百万的马来西亚华人发挥着重要作用,他们通过官

期刊

马来西亚华人中马文化交流国家形象

英语学科素质教育之我见

随着我国素质教育的不断深入,新课程改革的推进,基础教育既面临一次挑战,又获得一次发展机遇,英语学科教育在改革开放的大好形势下,更显得尤为突出.英语教学实施素质教育,落

期刊

英语素质教育教师

对我国上市公司治理有关问题的思考——以上海浦东发展银行为例

期刊

浦发银行战略投资者股权激励上海浦东发展银行上市公司治理股权分置改革股东大会独立董事制度问题的思考

递送阿霉素的EGFR靶向PLGA脂质体的制备及体内外抗肝癌活性研究

肝癌是世界上第五大威胁人类健康的肿瘤，每年导致超过500,000人死亡。在美国，肝癌的发病率在过去的三十年里增加了90％以上[1]。尽管在肝癌的诊断和治疗取得了很大的成绩，但是由于

学位

抗体纳米粒阿霉素表皮生长因子受体肝癌

东北老工业基地调整改造中的服务业发展研究

服务业(即第三产业)对提高国民经济效益,扩大就业、加快城镇化进程、改善人民生活具有重要作用。我们在调整和改造东北老工业基地的过程中,尤其要发展服务业。本文以东北三省

期刊

服务业经济发展调整改造

1930年代的冤狱赔偿运动研究

冤狱赔偿制是近代西方人权思想发展的产物,为国家赔偿制度的一部分,是指司法机关及其工作人员在行使职权时,发生错拘、错判,对公民的合法权益造成损害给予赔偿的制度,包括对

学位

冤狱赔偿制度移植人权上海律师公会中华民国律师公会

基于深度学习的视频内容描述研究

其他学术论文