论文部分内容阅读
在多媒体技术应用中,数字视频以其信息量大,信息表现形式多样灵活,信息内容丰富而广受青睐。当今,数字广播电视,网络视频,数字视频监控,数字移动视频等应用在人们的日常生活中随处可见。然而,人们对技术进步的追求没有终点,如何在有限存储空间和传输带宽条件下提供更高质量的视频服务成为数字视频技术新的挑战。因此,新的数字视频技术的研究与应用也就随之成了产业界与学术界的热门话题。在众多的新的数字视频研究方向中,能够给人带来全新立体感受和真实感官体验的三维视频引起了广泛的关注。同时,三维视频已经在一些场合中得到了初步的应用。但是,三维视频编码仍然面临着标准化进程滞后,编码效率低,编码复杂性高,缺乏有效编码视频质量度量方法等问题,影响了三维视频的应用推广与产业化进程。本文从三维视频的基本原理入手,针对上述问题进行了探索,并提出了一些有效的编码技术与实用的算法模型。具体研究内容如下。三维视频编码的主要问题为标准化进展缓慢,编码效率低。为此,本文提出了帧内视间预测模式,并被标准工作组采纳。国家数字音视频编解码技术标准工作组(AVS)提出的面向三维视频的立体档次包括双目联合编码方案和双视点拼接模式两种方案,其中双视点拼接模式具有兼容性高和复杂度低等优点。但与双目联合编码方案相比,传统的拼接模式由于在生成拼接视频时使用了抽样技术,丢失了部分信息,并且忽视了同一帧内不同视点图像之间的相关性,编码效率较低。为改善双视点拼接模式的编码性能,本文提出了帧内视间预测模式。在该模式下,通过利用不同视点图像之间存在的相关性,消除了视间冗余,提高了编码效率。在三维视频采集过程中,由于相邻两部摄像机参数,角度和位置的不同,同一时刻不同视点的图像之间会产生亮度变化,该变化会影响视间预测准确度,进而降低编码效率。为解决该问题,本文提出了基于模板的亮度补偿算法,即利用当前块的L型模板与参考块的L型模板之间的亮度变化来预测当前块与参考块之间的亮度变化。进一步,可以通过建立多个预测模型提高预测准确性,消除亮度变化对视差估计的影响。例如,可以通过不同的纹理方向建立不同的预测模型,根据预测模型选择策略选出最优模型,提高编码效率。尽管三维视频引起了工业界和学术界的关注,但是相对于传统的二维视频,过高的编码复杂性限制了三维视频的实际应用。为此,本文提出了针对三维视频的快速视差和运动估计算法,该算法基于相邻摄像机之间的相关性以及运动与视差之间的相关性。在提出的方法中,首先,由于摄像机设置通常固定,两个相邻视点之间的视差可以被限制到一个可以估计的范围,本文提出了搜索区域估计方法,降低了视差估计的复杂性。然后,基于运动与视差之间的几何相关性,本文中给出了运动向量推导方法。最后,本文提出了早期终止策略来减少参考帧数量。实验结果表明相比参照的多视点视频编码测试模型JSVM,提出的算法可以节省大约50%的编码时间,而编码性能几乎没有损失。最后,本文为确定人眼能够感知到的三维视频的最小失真,对三维图像/视频的可见失真模型进行了研究。通过利用人眼的双目掩蔽效应和深度感知能力,本文构建了面向三维图像/视频的联合可见失真模型。首先,通过视差估计将图像划分成遮挡区域与非重叠区域。然后,对于不同的区域,根据其深度求得不同的可见失真阈值,其中区域深度由之前视差估计得到的视差场推导出来。实验结果证实了联合可见失真模型对于三维图像/视频的有效性。总之,本文对三维视频编码的标准化问题,编码性能问题,复杂性问题与质量评价体系都进行了深入的研究,提出了相应的技术方案,取得了较好的效果。