论文部分内容阅读
近年来,以3D电影、虚拟现实(VR)为代表的新型多媒体形式给人们带来了前所未有的感官享受,使人们感受到了科技带来的美好。这类新型多媒体区别于传统媒体的重要一点,就是立体(3D)信息的使用,通过左右眼输入左右两路不同影像,来恢复人眼看到真实立体场景时的状态,从而使人获得立体感和沉浸感。3D电影技术和虚拟现实技术在未来几年内仍然会保持火热,并在更多领域显示出其价值,引起更多关注。 3D电影和虚拟现实相关影片在制作时,很重要的一点就是要获取场景的深度信息,由此再进行优化调整,以获得能带来更好感官体验的3D内容。其中,从双目视频中提取深度信息是一种较为成熟有效的方式,其主要工作是视频每帧的双目立体匹配以及视频帧间信息的使用,目前这个领域仍然存在着匹配效率、不同场景适应性、无纹理区域和倾斜平面区域匹配、深度边缘处效果不好等问题。本文主要提出三种算法分别尝试改善其中若干问题。 针对无纹理区域和倾斜平面区域的匹配问题,本文提出了基于超像素和最小生成树的双目视频深度信息提取算法,主要创新在于提出了一个基于最小生成树的超像素邻域系统,对于无纹理区域的超像素,该邻域系统能够有效扩展其交互区域,使这些超像素获取更多的信息以改善无纹理区域的匹配性能。针对双目视频深度信息提取中的匹配效率和时域一致性问题,本文提出了基于时空半全局立体匹配的双目视频深度信息提取算法,主要创新点在于使用半全局立体匹配的思想,有效利用时域信息对视频视差进行改善,同时保持算法的效率。针对深度边缘效果不好、匹配效率效率问题和不同场景适应性问题,本文提出基于深度学习的双目视频深度信息提取算法,构建了一个轻量但有效的网络结构,用数据驱动的形式获得良好的匹配效果,同时保持较高的匹配效率和较好的泛化性。