【摘 要】
:
在近几年中,深度学习取得了很大的成功,针对不同类型的学习方法,提出了不同的学习方法,包括有监督学习、半监督学习和非监督学习。计算机视觉领域也有了突飞猛进的发展,视频风格转换作为计算机视觉领域的一个分支研究方向,同样进展迅速。视频风格转换源于图像的风格转换,图像风格转换通过预训练好的卷积神经网络来提取自然图像的内容信息,通过Gram矩阵来提取图像的纹理特征。视频风格转换与其类似,目的是使风格化视频在
论文部分内容阅读
在近几年中,深度学习取得了很大的成功,针对不同类型的学习方法,提出了不同的学习方法,包括有监督学习、半监督学习和非监督学习。计算机视觉领域也有了突飞猛进的发展,视频风格转换作为计算机视觉领域的一个分支研究方向,同样进展迅速。视频风格转换源于图像的风格转换,图像风格转换通过预训练好的卷积神经网络来提取自然图像的内容信息,通过Gram矩阵来提取图像的纹理特征。视频风格转换与其类似,目的是使风格化视频在空间结构上与原始视频相似,在纹理信息方面与风格图相似。在视频风格转换领域,最关注的研究方向是风格化视频的去闪烁算法。Ruder等人以迭代的方式,通过加入光流估计,引入时间一致性损失,约束了风格化视频的时间一致性,达到了去闪烁的目的。Huang等人通过前馈神经网络的方式,对视频风格化进行了加速。证明前馈神经网络可以学习视频的时间一致性。但由于在约束相邻风格化视频帧间的时间一致性时,采用的是原始视频的光流进行的约束,这使得训练过程存在误差。因为风格化视频帧在空间结构上发生了扭曲,因此与原始视频评估出的光流并不适配。针对这一弊端,本文采用自编码器的思想,将网络结构分为编码网络和解码网络两部分,编码器负责将原始视频帧转换为风格化视频帧,解码器网络负责将生成的风格化视频帧重构为原始视频帧。本文方法选择在重构视频帧上约束时间一致性,因为重构视频帧在空间结构上与原视频帧基本相似,因此这有效的弥补了误差产生,并且证明了在重构视频帧上约束时间一致性同样可以达到去闪烁的目的,使得风格化视频的视觉效果更好。本文还引入了重构损失,目的是为了使解码网络具有重构性能。此外,在约束风格化视频帧时间一致性方面,以往的方式通过加入蒙版,只采用光流约束风格化视频背景的时间一致性,因为前景目标一直在运动,运动物体的闪烁现象不明显。但蒙版的加入使得训练过程中前景目标与背景的约束条件不同,因此在训练过程中,在前景目标边缘附近处会产生光晕,针对这一弊端,本文在损失函数中新增了梯度保序损失函数,通过提取边缘附近像素不同方向的梯度的序,有效的保证了边缘附近的像素梯度方向与原始视频一致。由于原始视频的边界处不附有光晕,因此约束后的风格化视频在边界处也处理的更加自然,抑制了光晕的产生。该约束条件只约束梯度序而不约束像素梯度值,这样做是因为本文在抑制光晕的同时,还要保证风格纹理信息不被破坏。
其他文献
图像修复一直以来是计算机视觉领域的一个热门课题,近几年随着人工智能的蓬勃发展,深度学习也随之快速发展。特别是在图像识别、图像分类、语音识别、身份识别、目标跟踪、图像修复、行为分析等领域的研究上有了巨大的发展。深度学习对于非线性问题的拟合以及对于图像、语音等物理特征的快速有效提取,使得这些原本在传统方法上需要人为设定并人工提取特征的问题变得简单。深度学习的模型训练和学习变得更为方便和快速。虽然深度学
随着大数据时代的到来,信息的海量增长使人们不得不面对信息过载的困局。推荐系统作为解决信息过载的有效技术手段,一经提出就吸引了众多学者的关注。协同过滤算法作为推荐系统领域中最常用的算法之一,随着数据的快速增长逐渐暴露了其固有的一些问题。其中,可扩展性问题是阻碍其发展的主要障碍之一。为了缓解该问题,学者们提出了各种各样的方法,基于信息核的推荐方法就是其中一种较为新颖的方法。目前主要是通过启发式的方法构
近年来,人们对多波束阵列天线需求日益增加,与此同时对它的性能要求也越来越高,因此多波束天线朝着大规模方向发展,这带来了成本高,复杂度大等问题,因此稀疏化阵列单元变得很
道路作为重要的交通信息,与人类生活联系十分紧密,在城市的快速发展中起着关键作用。随着“智慧城市”以及智能交通的发展,道路信息的自动有效获取变得越来越重要。与传统道
社会工作者的角色实践方式影响着信任性专业关系的建立,且信任性专业关系是培育服务对象抗逆力的先决条件。本研究旨在回应社会工作者如何实践角色能够建构信任性专业关系的
“法越教育”是法属时期法国人在越南建立的殖民教育体系,法越教育是研究法国殖民地教育的典型案例。到目前为止,国内学术界缺乏对法国殖民地教育的专题研究,更无人涉及法属
近年来,3D打印技术迅猛发展,消费级3D打印机走进人们的生活,少年儿童们也有条件能够DIY三维模型。传统的专业三维建模软件由于其操作复杂、建模时间长等不足,对没有三维建模基础的少年儿童来说并不友好;而使用图像进行三维建模,具有上手快、易操作等优点,少年儿童只需经过初步的培训就能掌握。针对基于单幅复杂图像及其辅助曲线的三维建模方法,本文根据图像对称关系和辅助曲线计算模型深度信息,得到的三维模型有较高
随着时代的进步,社会越来越重视人才的培养和选拔,人们对人才的选拔和评估往往是根据考试成绩的高低进行的,处于这样的人才选拔制度和社会现实当中,学业成绩成为了人们最为重
FPGA芯片在各领域应用越来越广泛,产品更迭迅速。商业FPGA开发环境支持设计输入、综合、工艺映射、布局、布线、仿真验证、位流文件生成的完整流程。学术界对FPGA的研究主要集中在各流程中算法的改进并提高效率,开发流程也止步于布线阶段。VTR工具集是学术界主要开发环境,只能支持结构相对简单、逻辑块种类和数量较少、布线资源简单且有规则的芯片开发,无法应用于结构复杂、资源丰富的实际商业FPGA芯片的开发
《晦庵先生文集》是南宋理学家朱熹的个人诗文全集,今人整理其集称作《朱熹集》、《晦庵先生朱文公集》等(以下简称作《文集》),其体大思精、无微不烛的编著特点,使之成为学