论文部分内容阅读
计算机立体视觉的研究目标是从二维图像数据还原三维场景信息,是计算机视觉领域的一个重要研究方向,被广泛应用于航空航天、自动驾驶、医学、物流、机器人导航以及AR/VR等领域。双目立体视觉是立体视觉中最有潜力的、最拟人化的方法,其核心技术是寻找经过核线纠正后的立体图像对上的对应点,即立体匹配,然后计算图像中每个像素点的视差,进而获得深度信息。立体匹配是利用立体图像对中的二维图像平面信息逆向求解三维空间信息,由于二维信息是由三维的实物转化而来,转化过程中会有信息丢失,逆问题求解存在病态性;匹配过程中面临遮挡以及物体边界处引起的视差膨胀、重复或弱纹理带来的匹配二义性、光学几何变化带来的图像成像差异等问题;另外新的数据集在图像对中考虑了曝光、光照变化等情况,基于更复杂道路场景。受上述因素的影响,要获得准确的三维信息仍具挑战性。立体匹配算法在匹配代价阶段受光照变化、噪声、缺少深度信息、较大弱纹理等影响造成误匹配;代价聚合阶段存在误匹配代价累积、收敛速度慢以及卷积神经网络(CNN)在下采样和多尺度融合过程中丢失细节信息导致边缘视差模糊等问题;视差计算阶段存在初始视差平面标签的具有随机性导致匹配精度和收敛速度受限、网格边缘处视差标签不能有效传播导致局部极小值以及CNN中编解码结构单一使精度提升受限等问题;视差优化阶段,左右一致性校验存在一定的局限性影响视差后处理精度提升等问题。针对各阶段存在的问题,本文主要研究工作和结果如下:首先,针对基于MST的立体匹配在较大弱纹理区域误匹配率高等问题,提出了基于对数变换的梯度信息有效缓解较大弱纹理区域误匹配;针对视差边缘模糊等问题,在初始视差基础上,提出了融合初始视差进行匹配代价计算;针对左右一致性校验局限性问题,提出了基于最小值和次最小值的左右一致性校验,进一步提升视差精度。在此基础上,提出了有效融合非局部算法和全局算法的立体匹配算法,该算法针对光照变化和噪声等引起误匹配问题,提出了改进的Census算法,有效改善关照变化和噪声引起的误匹配;并针对误匹配代价在代价聚合阶段误差不断累加问题,提出了基于颜色和初始视差值的自适应能量传递,误匹配率得到显著下降。其次,针对传统局部和全局立体匹配在光照和曝光等变化情况下匹配效果不理想等问题,提出了基于CNN获得初始匹配代价的Local Ex-RC算法。该算法提出了基于可信点约束的像素选择,获得了更好的初始化视差平面,有效改善了视差平面随机性带来的误匹配高以及收敛速度慢等问题;并提出了相邻相似像素间的协同优化机制,改善了网格边缘视差标签不能有效传播引起的局部极小值问题。提出的算法在Middlebury 3.0上进行在线验证,与评测系统中的所有算法进行对比,在错误阈值为1像素的情况下达到了第1名的成绩。紧接着,针对传统方法和非端到端的立体匹配网络在复杂的道路场景下,不能有效学习场景特有的属性,以及下采样和多尺度等引起的细节信息丢失和边缘模糊等问题,提出了基于像素注意力的双通道端到端立体匹配网络。该网络中提出了像素注意力沙漏型子网络,改善了下采样过程中细节特征丢失问题;并在代价聚合阶段提出了基于像素注意力的U型子网络,改善了基于多尺度存在视差边缘模糊等问题,并在KITTI立体数据集上在线验证提出模块的有效性。最后,针对端到端网路在先验知识整合方面的局限性,提出了融合传统立体匹配方法的端到端网络。该网络中提出了改进的通道注意力子网络,有效改善了特征提取阶段多尺度信息不能有效融合的问题;提出了基于视差维度的代价聚合体,改善了代价聚合体结构单一限制匹配精度提升等问题;还提出了基于门注意力的规范化代价聚合模块,有效改善了堆叠编解码结构中冗余信息带来的干扰问题;并在KITTI立体数据集上进行在线测试验证算法的有效性。以上研究提出了MST-GD、TSGO-CD、Local Exp-RC、PASNet、MPANet等算法,并在Middlebury、KITTI立体数据集上验证算法的有效性,为解决立体匹配中存在的问题提供了新思路。