论文部分内容阅读
随着“平安中国”建设的不断推进,全国典型示范城市的监控视频数据存储规模均已达到PB级别,监控视频数据总量的增长速度已经远远超过视频编码效率提升的速度。为了降低监控视频的存储代价,亟需研究高效的监控视频编码方法。城市监控网络中摄像机主要针对安防三要素“人、车、物”进行拍摄,相比于静态背景,动态前景对象的压缩编码更具潜力与挑战,尤其是车辆对象的编码。运动对象在城域空间被各摄像机反复摄录,拍摄得到的视频集合称之为多源监控视频。同一运动对象在不同时间、不同地点产生的对象数据具有较高相似性,形成的数据冗余称之为运动对象冗余。随着时间与空间推移,视频中的运动对象数量急剧增加,海量对象的运动将产生大量运动对象冗余,成为多源监控视频中冗余的主要构成部分,去除运动对象冗余是实现多源监控视频高效压缩的关键。运动对象冗余不仅存在于单段视频中还分布在包含该对象的不同视频之间,兼具全局与局部特性,现有的面向单源与多源视频编码方法缺乏有机融合,难以有效去除运动对象冗余。借鉴融合编码的思想,从全局与局部两个方面对运动对象进行预测,并融合生成合成参考帧,用以作为运动对象编码时的参考这一思路为运动对象冗余的去除提供了新的契机,但同时也面临以下几个方面的挑战。
在运动对象的全局冗余去除方面,现有的方法通常采用基于特征的预测,通过特征匹配的方法建立不同视频间对象的关联关系,从而确定预测结构。然而,该方法对于拍摄重叠度要求较高,对于遵循欠覆盖布设原则的多源监控视频而言,拍摄区域几乎不重叠,对象在不同视频下姿态多样,经常出现匹配特征过少甚至没有匹配特征的情况,导致基于特征的预测模型失效。
在运动对象的局部冗余去除方面,现有的方法通常采用二维平面上的运动补偿技术搜索相邻帧中最为相似的区域作为当前对象区域的预测值。然而,在真实世界中,对象在三维空间中运动,仅使用二维平面上的平移运动对三维运动建模精度不高,在运动复杂的情况下,如存在三维旋转、缩放等的场景中,难以找到最优匹配区域,导致预测精度急剧降低。
在参考帧融合方面,现有的图像融合方法通常面向图像增强任务,将图像通过变换分解到不同频段,在某个频段上根据一定的准则融合不同图像内容,这一类任务旨在获得更好的主观视觉质量。对于视频编码任务而言,为了减少预测残差,提升编码效率,我们希望融合后得到的参考帧能尽可能与待编码视频帧相似。然而,现有的图像融合方法未考虑融合图像与目标图像之间的相似性约束,导致融合图像与目标图像存在较大差异,使用其作为参考帧将产生大量预测残差。
针对上述难点问题,本文对多源监控视频高效编码方法展开研究并取得了如下创新成果。
(1)基于知识表达的对象全局预测方法
针对非重叠拍摄视频之间对象外观与姿态多变,导致其像素分布差异较大、缺乏匹配特征,难以建立对象预测关系的问题,本文研究对象的层次化知识提取方法,提出使用强时空一致性的高层知识表达对象,构建基于知识表达的对象全局预测模型,通过共性知识关联视频间对象,挖掘对象跨视频相似性,提升预测模型的全局冗余去除性能。实验结果表明,提出方法在对象姿态变化剧烈、受环境影响外观差异较大的情况下仍有较好的性能,在模拟监控视频数据集上相较于基于特征的预测方法以及HEVC帧间预测方法预测误差分别降低了8.18%与16.34%。
(2)基于三维变换的对象局部预测方法
针对复杂情况下二维平移模型难以表达对象三维旋转、缩放等运动,导致预测精度急剧降低的问题,本文提出基于三维变换的对象局部预测模型,使用透视变换模型刻画对象真实运动,提升预测模型的局部冗余去除性能。同时,借助对象三维模型将透视变换模型参数估计问题转化为两次参数已知的透视投影过程,简化模型参数求解过程,使复杂高阶运动模型应用于预测成为可能。实验结果表明,提出的局部预测模型在大多数场景下具有良好的预测性能,可高效去除局部性冗余,在模拟监控视频数据集上相较于基于仿射变换的预测方法以及HEVC帧间预测方法预测误差分别降低了11.11%与21.17%。
(3)内容自适应的参考帧融合方法
针对面向视觉质量的融合方法缺乏相似性约束导致融合图像与待编码视频帧差异过大,难以用作参考的问题,本文在融合过程中采用融合图像与待编码视频帧之间的绝对误差作为约束最小化二者的差异,使融合参考帧适用于编码任务。此外,本文分析全局参考帧与局部参考帧的特点,构建内容先验约束指导参考帧融合过程,进一步提升参考帧融合精度。实验结果表明,提出方法的性能在主观与客观两个方面均优于对比方法。提出的参考帧融合网络相较于现有的图像融合网络而言,其融合结果具有更高的质量,与目标图像色彩更加接近,同时还保有更清晰的边缘轮廓等结构信息。
(4)基于融合参考的多源监控视频编码方法
在上述方法研究的基础上,本文搭建了基于融合参考的多源监控视频编解码框架,以去除运动对象冗余,实现多源监控视频高效编码。同时,本文还提出基于运动推理的率失真估计方法以及基于率失真代价的参考帧队列管理方法,优化整体编码性能。实验结果表明,提出的编码框架在模拟环境、简单场景以及复杂真实场景下的编码效率均高于对比方法。该编码框架可有效去除运动对象冗余,实现高效的多源监控视频编码。
综上所述,本文围绕多源监控视频中运动对象冗余的去除展开研究,提出了新的全局与局部预测模型,并结合二者的优点,搭建了基于融合参考的多源监控视频编码框架,为复合型冗余的产生机理与去除方法研究提供了理论和技术支撑。
在运动对象的全局冗余去除方面,现有的方法通常采用基于特征的预测,通过特征匹配的方法建立不同视频间对象的关联关系,从而确定预测结构。然而,该方法对于拍摄重叠度要求较高,对于遵循欠覆盖布设原则的多源监控视频而言,拍摄区域几乎不重叠,对象在不同视频下姿态多样,经常出现匹配特征过少甚至没有匹配特征的情况,导致基于特征的预测模型失效。
在运动对象的局部冗余去除方面,现有的方法通常采用二维平面上的运动补偿技术搜索相邻帧中最为相似的区域作为当前对象区域的预测值。然而,在真实世界中,对象在三维空间中运动,仅使用二维平面上的平移运动对三维运动建模精度不高,在运动复杂的情况下,如存在三维旋转、缩放等的场景中,难以找到最优匹配区域,导致预测精度急剧降低。
在参考帧融合方面,现有的图像融合方法通常面向图像增强任务,将图像通过变换分解到不同频段,在某个频段上根据一定的准则融合不同图像内容,这一类任务旨在获得更好的主观视觉质量。对于视频编码任务而言,为了减少预测残差,提升编码效率,我们希望融合后得到的参考帧能尽可能与待编码视频帧相似。然而,现有的图像融合方法未考虑融合图像与目标图像之间的相似性约束,导致融合图像与目标图像存在较大差异,使用其作为参考帧将产生大量预测残差。
针对上述难点问题,本文对多源监控视频高效编码方法展开研究并取得了如下创新成果。
(1)基于知识表达的对象全局预测方法
针对非重叠拍摄视频之间对象外观与姿态多变,导致其像素分布差异较大、缺乏匹配特征,难以建立对象预测关系的问题,本文研究对象的层次化知识提取方法,提出使用强时空一致性的高层知识表达对象,构建基于知识表达的对象全局预测模型,通过共性知识关联视频间对象,挖掘对象跨视频相似性,提升预测模型的全局冗余去除性能。实验结果表明,提出方法在对象姿态变化剧烈、受环境影响外观差异较大的情况下仍有较好的性能,在模拟监控视频数据集上相较于基于特征的预测方法以及HEVC帧间预测方法预测误差分别降低了8.18%与16.34%。
(2)基于三维变换的对象局部预测方法
针对复杂情况下二维平移模型难以表达对象三维旋转、缩放等运动,导致预测精度急剧降低的问题,本文提出基于三维变换的对象局部预测模型,使用透视变换模型刻画对象真实运动,提升预测模型的局部冗余去除性能。同时,借助对象三维模型将透视变换模型参数估计问题转化为两次参数已知的透视投影过程,简化模型参数求解过程,使复杂高阶运动模型应用于预测成为可能。实验结果表明,提出的局部预测模型在大多数场景下具有良好的预测性能,可高效去除局部性冗余,在模拟监控视频数据集上相较于基于仿射变换的预测方法以及HEVC帧间预测方法预测误差分别降低了11.11%与21.17%。
(3)内容自适应的参考帧融合方法
针对面向视觉质量的融合方法缺乏相似性约束导致融合图像与待编码视频帧差异过大,难以用作参考的问题,本文在融合过程中采用融合图像与待编码视频帧之间的绝对误差作为约束最小化二者的差异,使融合参考帧适用于编码任务。此外,本文分析全局参考帧与局部参考帧的特点,构建内容先验约束指导参考帧融合过程,进一步提升参考帧融合精度。实验结果表明,提出方法的性能在主观与客观两个方面均优于对比方法。提出的参考帧融合网络相较于现有的图像融合网络而言,其融合结果具有更高的质量,与目标图像色彩更加接近,同时还保有更清晰的边缘轮廓等结构信息。
(4)基于融合参考的多源监控视频编码方法
在上述方法研究的基础上,本文搭建了基于融合参考的多源监控视频编解码框架,以去除运动对象冗余,实现多源监控视频高效编码。同时,本文还提出基于运动推理的率失真估计方法以及基于率失真代价的参考帧队列管理方法,优化整体编码性能。实验结果表明,提出的编码框架在模拟环境、简单场景以及复杂真实场景下的编码效率均高于对比方法。该编码框架可有效去除运动对象冗余,实现高效的多源监控视频编码。
综上所述,本文围绕多源监控视频中运动对象冗余的去除展开研究,提出了新的全局与局部预测模型,并结合二者的优点,搭建了基于融合参考的多源监控视频编码框架,为复合型冗余的产生机理与去除方法研究提供了理论和技术支撑。