论文部分内容阅读
随着人们生活水平的提升,对于智能移动机器人应用的需求越来越大,例如航天航空、生活服务,交通运输和娱乐业等领域,而同时定位与建图(Simultaneous Localization and Mapping,SLAM)技术作为智能移动机器人实现自主导航的关键技术更是备受人们关注。其中,视觉SLAM在近年来也取得了很大的进展。单目SLAM因其结构简单、成本低、灵活性强和拓展性强等方面的优势更是成为了视觉SLAM的主要研究对象,但传统基于特征匹配的单目SLAM在实际应用中仍然存在很多问题,例如在低纹理或重复纹理环境中,难以提取足够的特征进行匹配。此外,还容易受光照和天气变化的影响。相比较而言,深度学习提取的特征对于这些场景会更加鲁棒。其次,传统方法强调对场景中存在的几何特性进行建模,并没有对场景进行高维的感知。在单目SLAM中引入深度学习技术,获得更好的场景感知能力,从而得到更加鲁棒的单目SLAM系统。在这个背景下,本文提出了基于深度学习的单目SLAM关键技术这个研究课题。在单目SLAM中,主要的功能模块包括相机的位姿追踪、建图、重定位和回环检测等。除此之外,丰富的场景感知信息对于单目SLAM也是至关重要的。传统基于特征匹配的单目SLAM在重定位时很依赖特征的提取和匹配,本文通过深度网络学习场景定位的特征,从而在已知场景中直接输入RGB图像进行定位。单目SLAM建图时,得到的是特征点对应的稀疏点云,不能很好反应场景完整结构和场景中物体之间的相互关系。而稠密的深度图和场景的物体语义信息对场景真实的稠密重建很有帮助,还可以促进单目SLAM对周围环境的感知能力。因此,本文利用深度学习技术在深度和语义信息获取上也进行了一些研究实验。本文的主要研究内容和创新点总结如下:1.针对已知场景的定位问题,本文提出了一种基于双流信息共享的沙漏网络用于相机的重定位问题,有效提升了相机的重定位精度。该方法避开了通常将相机位姿的R和T当做一个回归向量来处理,通过两个不同的解码网络分别进行回归,两个解码分支间采用跳变连接的方式进行相应任务的信息共享。并且将固定的多损失函数平衡因子变为可学习的参数,通过网络的训练自动地平衡不同任务的损失。在公开的数据集上,与同类型的方法相比,本文提出的改进算法可有效的提升深度学习的重定位精度,为进一步应用于大场景的快速重定位提供可能。2.针对场景的深度估计问题,传统的人工设计的特征需要很强的先验性假设,难以在复杂情况下应用,本文基于深度学习的方法提出了两个版本的单目深度估计方法。第一个版本通过空间金字塔池化的结构,来进行多尺度信息的提取,增强深度估计的精度与边缘。第二个版本采用的是改进的空洞空间金字塔结构,通过空洞卷积去并行的提取特征的多尺度信息。为了获得鲁棒性的深度输出,本文提出融合不确定性估计的损失函数,通过训练过程联合优化整个网络的输出。实验验证了本文提出的改进方法的有效性,在深度估计的数据集上比以往的方法提升了很多,获得的深度图也更精细。此外,本文还提出一个点云融合的方案,将CNN估计的深度和对应的不确定性融合进SLAM中,改善单目SLAM的尺度不确定性,获得稠密的三维重建结果,可有效的辅助单目视觉SLAM系统,获得更鲁棒性的效果。3.针对场景结构估计问题,很多任务都使用不同的网络结构,实际的应用需要更多的硬件支撑,本文提出了一种多模态的联合估计方法,使用共享特征的联合估计网络同时估计场景的深度和语义信息,并且融合多尺度的网络模块得到一致性的性能提升。本文还结合了轻量化的网络结构,采用了更高效的卷积方式,实验结果验证了本文提出的改进的有效性,与同类型的方法相比,本文提出的多模态联合估计方法在使用较少的数据下得到了与其他方法相似的性能,得到了更好的可视化效果。在RGB输入的基础上,本文还提出了一种基于RGB和稀疏深度的联合估计方案,在少量的深度输入后,单目深度估计和语义分割性能得到很大的提升。高精度的深度感知和语义分割结果可以为单目视觉SLAM提供更多的场景信息,推动智能移动机器人在实际场景鲁棒的运行。