论文部分内容阅读
如何利用计算机技术高效逼真地表达虚拟和真实的世界,实现真实世界与虚拟世界的高度互动和融合,是混合现实的核心问题。随着研究对象复杂程度的日益提高,采用正向三维建模并进行绘制的方式在真实性、计算效率和交互的自然性等方面遇到了巨大的挑战。鉴于图像、视频等视觉信息易于直接从真实世界中获取,而计算机视觉技术又能够帮助从中提取和构建符合人类视觉感知规律的计算模型,这有效弥补了基于理想数学物理模型的传统图形处理技术的缺陷。因此,目前计算机视觉与计算机图形学这两个学科在相互交叉融合。基于上述研究背景,本学位论文主要研究如何从真实拍摄的视频数据中恢复出三维几何和运动信息并进行重用,包括摄像机参数、深度和光流等信息的高精度恢复以及视频场景的层次结构估计等,有效解决了基于视频的混合现实创作中面临的几何一致性、光照一致性和遮挡一致性等问题,促进了计算机视觉与计算机图形学的交叉融合。总体而言,本论文主要贡献如下:·提出了一个高效鲁棒的基于视频序列的摄像机跟踪技术框架。特别针对变化焦距的长序列求解不稳定、效率低等问题,提出了初始帧选取优化、最佳自定标时机选择以及集束调整局部化等策略,极大地提高了求解的效率和稳定性。在此基础上,针对存在循环回路的长序列的运动推断结构过程中容易出现的漂移问题,我们提出了一个非连续特征跟踪算法,能够快速自动地找出具有相同内容的非连续帧进行匹配,并以此将分布在不同子序列上的同名特征轨迹合并,从而可以提高结构和运动恢复的精度,避免漂移问题。基于这些研究成果,我们研发了一个基于视频序列的摄像机跟踪系统,其对变焦长序列的求解性能优于国际著名商业软件“Boujou Three”。·提出了一个基于视频序列的稠密深度恢复算法。创造性地提出在多视图立体深度恢复中采用集束优化方法,在统一的框架下将噪声、遮挡和Outlier以多帧统计的方式进行高效处理,很好地解决了噪声和遮挡对深度估计的影响,恢复的深度图不仅具有很好的时域一致性,而且在不连续边界的深度恢复方面取得了重要突破。在此基础上,我们提出了一个多道置信度传播(BeliefPropagation)优化算法,可以在不需要增加很多计算代价的条件下有效地扩展全局优化中的深度级数,从而提高深度恢复的精度。高质量的深度恢复直接推动了很多相关应用的发展,并为复杂的视频编缉处理奠定了基础。·提出了一个自动高效的无需稠密三维恢复的单目视频立体化技术,极大便利了立体视频的创作。通过创造性地将视频立体化问题转化为一个非线性能量优化问题,并对立体感、相似度和光滑度进行综合优化,实现了无需稠密三维恢复的单目视频到立体视频的自动转化。·提出了一个半自动的视频再创作技术框架。该框架可以将各种视频资源有效地利用起来,通过对视频数据中蕴含的三维几何、运动和层次结构等高维信息的分析和估计,解决了基于视频的混合现实创作中所面临的几何一致性、光照一致性和遮挡一致性等问题。特别地,针对运动物体和静态场景的不同特性,分别提出了一个基于深度恢复和光流估计的运动物体抽取方法和基于深度恢复的静态场景快速分层方法,极大地提高了视频场景的分层效率。基于这些功能,本系统提供了一系列的视频特效制作工具(包括虚实合成、物体伪装、子弹时间模拟、景深变化和雾化等),有效增加了视频编缉的手段和多样性。