论文部分内容阅读
传统的混合视频编码框架立足于经典的率失真理论,利用视频流的时间冗余、空间冗余和码字冗余压缩信息。H.264/AVC的提出是一个里程碑,其高效的编码效率将混合编码框架的优势发挥到了极致。但是,混合编码框架并没有深入研究人眼视觉系统对视频信号的理解机理,因此不可能充分地压缩视觉冗余。如果能够使编码器模拟人眼的行为首先对视频内容进行分析,再有选择地编码,这将极大地改变现有编码器的设计思路并且有效提高编码效率。为此,本文在混合编码框架的基础上,分四个部分重点研究了基于人眼视觉系统观测特性的新型视频编码框架。在第一部分中,本文深入研究了人眼视觉系统对视频信号的理解机理,将人眼的主观感知上升为了一个可计算的工程模型。一个有效的人眼感知特性计算模型可以看成是视频编码的前处理模块,它使编码器能够智能地分析提取视频流的内容,依据其视觉重要性级别选择不同的编码策略。在时域里,由于人眼对运动区域比较敏感,所以可根据运动特征区分不同观测区域的重要性级别。对于运动区域提取,传统技术首先假设摄像机静止,再对运动区域进行学习和跟踪。但是,在许多现实应用中,摄像机是运动的,因此传统技术不再适用。为了解决摄像机运动带来的问题,首先估计摄像机的运动参数,再进行背景建模,最后提取出运动前景。在空域里,对比度是影响人眼观测结果的一个重要因素,对比度强烈的区域更容易引起观测者的注意。为了反映对比度的分布状况,提出视觉对比度由相邻象素的亮度差和空间距离综合决定。由于观测结果受视频信号时域分量和空域分量的综合影响,因此提出了一个融合运动区域提取和对比度图的综合技术方案。在第二部分中,本文提出了一种恰可观测失真(JND)的建模方案。JND描述了可见失真的最小值,小于JND的一切失真都是可以容忍的,因此JND建模意义重大。人眼感知特性计算模型为JND建模提供了技术基础。为了有效将JND和视频编码结合,论文考虑在象素域中进行JND建模,因此选用背景亮度子模型和纹理掩膜子模型计算JND。对于背景亮度模型,本文结合前人成果,提出了一个低复杂度的适用于视频系统的背景亮度模型。对于纹理掩膜模型,设计了一个简单有效的十字交叉算子检测图像的纹理强度和分布,从而以较低的计算复杂度得到了较好的掩膜效果。在第三部分中,本文将JND和H.264/AVC编码器结合,充分利用H.264/AVC提供的高效的运动补偿算法,运用前向量化技术和JND预测技术有效地压缩视觉冗余。JND度量了人眼对失真的敏感程度,JND大的视频信号抗失真的能力强,就允许使用粗糙量化。因此,可以使用JND控制量化的精度和编码码率。另外,为了避免产生旁信息影响编码效率,进一步提出了基于H.264/AVC运动补偿的JND预测技术。实验结果表明,在不降低视频主观质量的前提下,和H.264/AVC主档编码器比,基于人眼视觉特性的编码框架可以降低5%~45%的输出码率。最后,本文利用人眼视觉特性对传统视频编码的若干关键模块进行了扩展和改进,主要包括:1)提出一种基于宏块平坦程度的环路滤波算法,它可以依据视频内容的特性自适应地调整滤波强度,实验结果表明其性能优于H.264/AVC的相应算法。2)提出了一种支持概率更新的熵编码算法,此算法的率失真性能和复杂度均介于H.264/AVC的CAVLC和CABAC之间。