【摘 要】
:
伴随着深度学习的快速发展,计算机视觉领域内的许多应用都取得了突破,包括图像分类、视频超分辨率、视频分类等。作为本文的研究课题,视频预测在计算机视觉领域内是很有挑战
论文部分内容阅读
伴随着深度学习的快速发展,计算机视觉领域内的许多应用都取得了突破,包括图像分类、视频超分辨率、视频分类等。作为本文的研究课题,视频预测在计算机视觉领域内是很有挑战性的,它的目标是在给定一个视频序列连续的m帧X={X,…,Xm}的情况下,生成n帧未来帧(?)={(?)1,…,(?)n}。本文设定m=2,n=1。与图像相比,视频不仅包含空间依赖关系,还包含时间依赖关系。因此,本文提出了基于时空融合和非局部块的视频预测算法来探索视频中的空间和时间依赖关系,主要工作如下:(1)在前两章中,本文阐述了视频预测的研究背景、研究价值以及国内外研究现状。以视频的时空依赖关系建模为重点,研究了常见的时空融合方式,包括基于时间的融合方式、基于空间的融合方式和渐进融合方式;对以捕捉远程依赖关系为目的的非局部块进行了全面的介绍。(2)在第三章中,本文提出了基于时空融合和非局部块的视频预测的总体路线和网络框架,采用编解码器作为基本结构,包括编码器、瓶颈层、核生成解码器和掩膜生成解码器。编码器对视频序列进行编码,提取特征;瓶颈层采取不同的时空融合方式,对视频特征序列的时空依赖关系进行捕捉;核生成解码器和掩膜生成解码器以瓶颈层的特征为输入,分别生成核和掩膜。其核心思想是每个时刻利用动态生成的核与最后一帧输入进行卷积,生成转换图像,再利用生成的掩膜对上一个时刻的输出和转换图像进行组合得到当前时刻的预测帧。在此基础上,本文设计了基于直接融合的视频预测网络以及基于直接融合和非局部块的视频预测网络,通过实验证明了总体路线及网络框架的有效性,分析了直接融合及其与非局部块的组合对视频预测性能的影响。进一步,采用生成对抗训练策略对网络进行优化训练,通过减少预测帧的模糊性提升预测结果。(3)在第四章中,本文选取ConvLSTM作为时空融合方式,用于解决直接融合忽略了每一帧作为单独的个体对预测帧的影响的问题,通过实验证明了ConvLSTM比直接融合具有更强的视频时空依赖关系建模能力。另外,本文还利用非局部块对基于ConvLSTM的视频预测网络进行结构优化,探索非局部块的远程依赖建模对视频预测的性能影响。(4)在第五章中,本文选取渐进融合作为时空融合方式,用于解决直接融合未能对每一帧作为单独的个体与预测帧的关系进行捕捉的问题和非局部块没能在基于ConvLSTM的视频预测中发挥其对远程依赖关系建模的优势的问题,通过实验证明了基于渐进融合和非局部块的视频预测算法的有效性。除此之外,将本文提出的算法与直接生成和基于流的典型算法进行了对比实验。
其他文献
本课题探究了基于碱催化的双C-H键直接氧化交叉偶联合成吡嗪衍生物的反应,研究获得主要结果如下所述:1、基于C-H键活化的优越性与实用性,设计了高区域选择性生成1,3-唑类取代
草菇(Volvariella volvacea)是一种生长在热带、亚热带地区的高温型食用菌。草菇对低温敏感,容易发生冷害,导致商品价值降低。本论文通过对不同贮藏温度下草菇生理指标的测定
本论文研究饲料中维生素C含量对草鱼(Ctenopharyngodon idella)幼鱼生长摄食、抗氧化、肉质和肝胰脏脂肪代谢的影响,为维生素C在草鱼饲料的应用提供科学依据。主要研究结果如下
近几年来,随着版权产业的飞速发展,短视频等个人创作作品不断涌现,以及人们版权意识的逐步提高,使得版权保护中心迎来了良好的发展机遇。但是随着登记用户量不断增长,用户对服务质量要求越来越高,功能逐渐复杂以及对性能和扩展性的要求逐渐增高,版权保护中心目前运行的单体式架构的版权登记填报系统已不能满足当前发展的要求。同时随着登记方式的多样化发展,多个登记业务模式无法实现融合,多系统登记业务数据无法实现共享,
在职消费指的是公司高层管理者在行使职权、履行职责过程中发生的,由企业支出的货币性消费以及由此派生的其他消费行为。我国上市公司相较于西方企业来说,在职消费现象频发,这种行为不仅会造成企业资源的严重浪费,显著增加代理成本,还将显著降低企业的治理效率。基于此,通过何种公司治理机制有效的抑制管理层过度在职消费行为,成为企业亟待解决的问题之一。董事会作为公司内部治理机制的重要组成部分,往往能够在公司治理中起
延安组延10层是目前鄂尔多斯盆地马岭油田北三区主要的开发层位之一。实践表明,由于前期缺乏对储层特征的系统认识,以及储层的影响因素不够明确,因此直接影响和制约后期的勘
为了限制政府官员不合理的公务消费,推进廉洁政府的建设,自2012年起我国县级以上政府开始推行公务消费预算信息公开制度。在中央“八项规定”和三公经费“只减不增”的要求下,我国各级政府的公务消费预算在总数上有所下降。然而公务消费预算数目的变化是否真正反映了公务消费支出的变动情况,公务消费预算信息公开制度是否真正起到了遏制不合理公务支出的作用?这些问题仍然有待探究。现有研究多集中在公务消费预算信息公开制
螺栓紧固件等通常用来保证结构之间在常规工况下能够紧密连接,然而,对于长期处于恶劣冲击振动工况的设备,强大的冲击力会直接通过这些连接件传递到结构各个地方,轻则导致设备
随着移动通信技术的飞速发展,网络中的数据业务量也呈指数式增长,而有限的频谱资源限制了传统蜂窝网络性能的提升。为了解决这一问题,在宏基站中密集部署小基站的超密集网络模型被广泛研究和应用。小型基站具有低功耗、低成本、易部署等优点,它可以弥补宏基站的覆盖漏洞,提高系统容量。同时,由于多天线技术可以有效地提高频谱资源利用率,成倍地提升数据传输速率,极大地改善链路传输质量,所以在无线网络中采用多天线技术具有
数字图像在日常的采集和传输过程中,会有很多原因导致其内容受到干扰。随着通信技术的快速发展,人们的生活与图像信息开始变得密不可分,这也使得解决图像缺失问题的方法日益精进。数字图像修复是计算机视觉领域的重要研究方向,近年来随着深度学习在图像处理方面的表现十分优异,越来越多的研究团队开始利用深度学习的相关方法处理图像修复问题。本文利用多种深度学习方法,对图像修复任务中的几个关键问题进行了研究,主要工作有