基于深度学习的全景视频后处理算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:dingdang19822003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全景视频在日常生活中越来越普及,但是由于网络传输能力有限,在传输高分辨率的全景视频时常用编码器如HEVC对其进行压缩,影响用户的视觉体验。因此如何对压缩全景视频进行有效后处理就成了迫切需要解决的问题。本文结合全景视频特性对不同形式的编码设置提出了两种全景视频后处理算法,以适应不同编码策略的压缩全景视频后处理。本文的主要工作如下:(1)提出基于可以适应HEVC编码器Ⅰ帧编码的全景视频编码后处理算法ARGAN。该算法利用单帧信息结合生成对抗网络设计算法进行后处理,使生成对抗网络学习到高清视频的构成方式,结合感知损失提升后处理视频帧的视觉真实性,使得ARGAN在很好的去除伪影和块效应的同时可以达到很好的视觉效果,同时ARGAN中单独的生成器网络ARRESNET可以达到优越的PSNR与SSIM提升效果。(2)提出可以适应HEVC编码器P帧编码的全景视频编码后处理算法ATT-RMDF。该算法融合多帧信息,显著优化由编码造成的视频帧质量波动。避开显式光流预测使用可变形卷积对齐多帧信息;设计注意力残差块在利用残差大幅度提升模型效果的同时使网络有针对性的利用各个相邻帧信息,并设计对齐验证网络来监督对齐的效果。实验表明,本文提出的基于单帧的ARGAN算法可在去除压缩伪影与块效应的同时达到优越的视觉效果,同时,单独的ARGAN生成器网络ARRESNET具有很高的PSNR/SSIM修复效果。基于多帧的ATT-RMDF算法不仅可以有效恢复PSNR与SSIM,同时可以明显的修复编码后带来的视频帧之前的质量波动,并且可以去除由编码带来的一些本不存在的工件,使后处理后的视频帧更接近于原视频。
其他文献
我国的移动应用在近年来出现井喷式的增长,这样也导致大量的移动端网页需要手工编写。与此同时,在前后端分离的开发趋势下,前端工程师们开始投入更多的时间和精力去完成业务逻辑设计、数据流转和处理、性能优化、交互体验等方面的工作,而冗余繁琐的网页开发工作仍然占据了工程师们大量的时间,极大地浪费了人力成本。为了解决这一矛盾,本文希望通过开发一个辅助开发系统,实现利用系统自动生成移动端网页代码的效果。在需求分析
近些年来,光频梳因为结构简单、成本低以及易于操作等优点成为光通信系统的理想光源,在微波光子学领域具有广阔的应用场景。为了促进光频梳相关技术进一步发展,追求更优质的光频梳尤为重要。本论文首先从光频梳的产生机制展开研究,主要研究了循环频移产生光频梳的方案中高边模抑制比、梳齿间隔可调谐性和梳齿根数的可控性等问题。然后利用光频梳独特的时间和光谱特性,在频率测量的应用方向上进行了探索性研究,具体展开工作如下
随着机器学习技术和神经网络的发展,基于深度学习的神经机器翻译逐渐兴起。自2014年开始,它在短短几年内已经在大部分任务上取得了明显的优势。在神经机器翻译中,词串被表示成实数向量,即分布式向量表示。这样,翻译过程并不是在离散化的单词和短语上进行,而是在实数向量空间上计算,因此它对词序列表示的方式产生了本质的改变。通常,机器翻译可以被看作一个序列到另一个序列的转化。在神经机器翻译中,序列到序列的转化过