论文部分内容阅读
二十一世纪,随着多视点视频技术的崛起,在世界范围内掀起了对新一代三维电视(3DTV)的研究热潮。与传统的二维(2D)视频显示相比,多视点视频由于增加了多个视点的信息及隐含的深度信息,能够给予观众很强的立体感和沉浸感。除此之外,其视点交互选择性能还能使用户从不同角度欣赏3D立体场景。然而,对多视点视频技术的研究还处在探索阶段,其在采集、传输、处理、视点重建等方面普遍存在的理论及实现问题以及由于多个视点数据的引入而带来的巨大的数据量问题,这成为制约多视点视频技术发展的瓶颈。多视点视频系统主要包括场景采集、编码传输及绘制显示,采集获取符合系统要求的多视点数据,编码将多视点数据进行高效压缩后传输,绘制完成多视点数据重构后进行交互显示。本文研究多视点视频系统的采集、编码及绘制等关键技术,并在理论研究的基础上构建了以多视点视频技术为核心的3DTV原型实验系统。关于多视点场景的采集与绘制之间的关系,目前国际国内的研究机构在建立多视点采集系统时较少考虑采集系统的参数(如相机间距、姿态、数目等)与绘制端重建方法以及效果之间的约束关系,而较多考虑通过增加相机数目(即视点数)来提高绘制质量,虽然视点数量越多,可视区则越密集,会使具有立体视觉的观看范围越大、立体真实感也越强,但是视点数越多、需传输的信息量就越大,对多视视频编码压缩效率的要求也越高,尤其是现有的多视点立体显示方式的显示分辨率会随视点数的增加而明显地降低。因此针对上述多视点视频的采集与绘制之间的优化问题,本文在对该相机系统进行建模,并对采集的多视点的视频数据进行分析。由于多视点数据可以看作是被采集的三维场景的光线集合,其在相机中成像的多视点视频图像可以理解为来自于场景中物体反射光线及直接由光源发出光线的集合。因此,经典的7维全光函数可以简化为6维的函数,即表面全光函数(Surface Plenoptic Function)。基于表面全光函数,本文综合考虑采集系统所涉及的各项参数(场景几何信息、场景物体表面纹理、物体表面反射特性、景深、相机分辨率、虚拟相机分辨率、相机镜头焦距、相机阵列摆放姿态和相机间距),通过信号采样理论分析得到无失真重建视点的最优条件,然后又对场景的EPI(Epipolar Image)图像进行了光谱分析,得出场景EPI光谱特性与场景深度变化范围的关系。根据上述分析确定合适的采样图像数目,并设计视点重建滤波器,通过插值技术为重建新视点生成采样图像,最后根据相机模型设计绘制重建方法得到在要求范围之内的三维场景新视点。实验时分别对具有相似参数的模拟场景及实际场景进行验证,均得到良好质量的视点重建。与传统的信号采样理论相比,本文方法所得到的相机采集数目及间距适合工程使用,且根据得出的相机数目、间距与特定重建方法之间的约束关系,在仅仅使用经典采样理论所需20%数目的采样图像的情况下,就能够重建出质量较好的新视点图像。在优化采集端的相机设置及绘制端的新视点重建之后,多视点视频数据的压缩传输成为多视点视频系统中需要深入研究的关键问题之一。与传统的二维视频(即单视点视频)相比,多视点视频中包含所有各路相机形成的视频流,视频数据量非常巨大。由于多视点视频编码包含同一场景内多个视点图像,视点之间有着高度的相关性。因此,除了像在2D视频编码中那样利用时空冗余达到数据压缩编码目的外,更重要的是还应消除不同视点间的视间预测冗余。根据上述思想,本文提出了一种新的“合成矢量”预测结构,该预测结构充分利用了传统立体视频中两路视频流中的视差矢量与运动矢量之间的约束关系,并将其拓展到多视点视频的编码单元中。同时,针对平行设置的相机采集系统,有效地利用视点之间矢量的线性关系来进一步提高多视点的编码效率。实验结果表明,该编码方案比现有的Simulcast和JMVM方案在编码效率上可提高0.2~0.5dB。在上述建立合适的相机采集系统及提出高效的编码压缩方法后,如何进一步设计出多视点虚拟视绘制的方法以及提高虚拟视的质量也是基于多视点视频的三维系统的一项关键技术。为了生成较好质量的虚拟视,目前的绘制方法大多需要密集的相机阵列来采集数目较大的多视点源图像,如前所述,这必然会增加压缩编码的负担。若不采用密集的相机阵列,仅从稀疏的相机阵列中获取多视点数据,通过插值算法或是上采样运算,然后进行虚拟视的绘制,这样必然会将算法的误差引入最终的虚拟视中,导致其质量的严重下降。为此,本文提出一种基于校正区域映射及图像融合的虚拟视生成算法,以尽量减小虚拟视的视觉误差,最大限度的提高虚拟视的质量。深度信息是基于深度绘制的关键信息,为获取深度信息,本文提出一种基于平面扫描算法的场景深度信息校正方法。实验证明,该方法不论从主观质量或是客观质量上均优于现有的虚拟视生成方法。