三维立体视觉关键技术研究:从感觉到知觉

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:SANDWICHSZHANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉是一门让计算机拥有理解周围复杂环境能力的学科,具有重要的理论研究意义和应用价值。但是目前计算机视觉系统大多采用二维信息处理方式,如智能交通系统,视频监控系统中仅仅采用单摄像头进行智能处理,缺乏对环境深度的感知,这在一定程度上给系统的可靠性和鲁棒性带来了隐患。随着越来越多计算机视觉应用技术逐渐走进人们的生活,提升着人们的生活质量,改善着人们的生活方式,对计算机视觉系统可靠性与鲁棒性的要求也越来越高。针对目前基于二维感知的计算机视觉系统的不足,本文以提升系统的可靠性和鲁棒性为目标,研究三维立体视觉的若干关键技术,主要可以分为两个部分:感知和认知。感知方面在二维颜色图像的基础上,以深度估计着力点,研究基于双目立体视觉的被动深度估计技术和基于深度补全的主动深度估计技术;认知方面以最基本的认知任务目标检测为着力点,研究基于三维信息的目标检测技术。本文的研究内容和主要创新点如下:
  1.针对双目立体视觉算法中性能和可靠性不足的问题,着重研究如何提升立体匹配算法的精度和模型的鲁棒性。针对传统算法中匹配代价计算精度不足的问题,提出了基于卷积匹配网络的视差估计方法,该方法通过训练计算图像块相似度的卷积神经网络,将匹配代价计算与卷积神经网络输出联系起来,然后基于计算好的匹配代价使用一系列立体匹配后处理步骤(左右一致性检测和插值,十字交叉代价聚合,亚像素增强,中值滤波,双边滤波等)计算视差,该方法极大的提升了视差估计的精度;针对立体匹配算法在困难区域性能不好的问题,提出了基于重构误差的编码-译码网络视差估计算法,该算法采用端到端的训练方式,编码阶段的前两个卷积层特征用于计算匹配代价,余下的部分用于对匹配代价进行特征提取,译码部分完成对视差的估计,在视差估计过程中将重构误差以跨层连接的方式加入译码网络部分,重构误差用于描述立体图像内在的几何约束,能有效的提升立体匹配算法整体的性能;针对立体匹配算法模型泛化能力和鲁棒性的不足,本文提出了基于特征不变性视差估计算法,当前基于深度学习的方法往往不包含视差优化过程,限制了立体匹配性能的进一步提升,本文基于特征一致性提出视差优化子网络,通过权值共享与视差估计子网络紧密耦合,模型级和层级匹配代价计算互相补充,有效的提升了视差估计精度,两阶段精调和随机训练机制能显著提升模型的鲁棒性和泛化能力。
  2.针对当前最流行的主动深度估计激光雷达分辨率不足的问题,本文提出基于深度学习的深度补全算法。该算法使用编码-译码网络,编码部分为两条支路,稀疏深度图支路采用稀疏卷积层用于处理稀疏数据,颜色图支路采用标准的卷积层提取图像引导信息,编码阶段,将图像引导信息以及稀疏深度图特征在不同的尺度下进行融合,同时在多个分辨率下进行深度补全。其中稀疏卷积层能有效的处理稀疏数据,对稀疏程度具有不变性,编码-译码网络结构能充分提取图像和深度图中的语义信息和上下文信息,该算法能有效提升深度补全的精度。
  3.针对当前目标检测算法可靠性不足的问题,本文着重研究基于三维信息的目标检测算法。针对传统颜色图特征表达能力不足的问题,提出3种基于深度信息的几何特征,并使用贝叶斯分类器将几何特征与颜色特征进行融合,完成候选窗口生成任务,该方法有效的提升了候选窗口生成的质量;针对传统手工特征设计困难、性能不足的问题,提出了基于深度、边缘和高度三通道的候选窗口生成算法,该方法将候选区域窗口形式化为基于深度学习的分类问题,将图像的深度图、边缘图和高度图代替RGB三通道作为卷积神经网络的输入,使用端到端训练的方式,将网络输出置信度作为结果并排序,该方法能有效提升候选窗口生成的性能,并对距离变化具有鲁棒性。上述两种方法均使用Fast-RCNN方法进行目标检测,都取得了很好的性能。
其他文献
采用自然工质CO2的跨临界循环技术具有广阔的应用前景。本文以CO2制冷剂跨临界循环系统中的主要设备—气体冷却器作为研究对象,通过理论分析、数值计算和实验研究相结合,进行优化研究。分析了超临界CO2的物性特点和不同条件对超临界CO2管内对流换热时影响。整理了超临界CO2换热关联式、压降关联式、润滑油的物性关联式以及水的换热关联式、压降关联式,运用动量平衡方程式建立了管内CO2/PAG混合物的两相流的
在通信、汽车、航空航天、数据处理等领域,小型化的模块电源被广泛的应用。提升电路的工作频率,可以减小系统中无源元件的体积,提升系统的功率密度。但高频化会带来开关损耗的增加,电路中的寄生参数对电路的影响变得显著等一系列问题。为了应对这些问题,可以从电路的拓扑结构,开关器件的选型及磁性元件结构的设计等方面进行相应的优化。  首先根据高效率高功率密度的要求,本课题采用的开关器件为宽禁带半导体材料GaN器件
无线能量传输技术具有灵活方便、电气隔离、免维护、环境适应性强等优点,有望应用于航空航天、电动汽车、植入式医疗、消费电子、智能家居等领域,已成为学术界和工业界的研究热点。但是,无线能量传输技术仍存在补偿元件多、抗偏移性能差、能量传输效率低、系统成本高等问题,阻碍了无线能量传输技术的实用化进程。  本文从磁耦合结构的角度出发,基于Maxwell仿真给出的磁场强度分布情况,得到了十字螺线管型抗偏移磁耦合
现代电子技术的飞速发展,手机、平板、电脑、智能手环等各类移动电子产品已成为信息传播的重要载体。在消费电子市场尤其是低压应用领域,Buck型DC-DC变换器作为不可或缺的稳压电源得到广泛应用。基于COT控制的Buck变换器因其电路结构简单、瞬态响应速度好和良好的电磁兼容性能而倍受青睐。但其劣势在于依赖于输出电压的的纹波参与系统控制,易受噪声干扰、破坏系统稳定性。  基于现有的COT控制架构,本文采用
学位
面对5G海量连接、高容量、低时延和高频谱效率的需求,非正交多址接入(NOMA) 是满足这些需求的关键技术之一。为了进一步提高非正交多址接入系统的性能,本文从系统的可达吞吐量、波束成形和能量效率等问题展开研究工作。  针对基于FDD单小区NOMA系统中存在的簇间干扰和用户间干扰问题,本文从用户分簇、预编码和功率分配三方面进行优化设计。提出了一种改进的k-means分簇算法,利用空间相关性将小区内的用
图象分割就是把图象空间划分成若干个具有某些一致性属性的不重叠区域.它是图象分析与理解的基础,是计算机视觉领域中最基本最困难的问题之一.这是因为至今没有一种方法适合所有分割问题,不同的问题必需寻找不同的方法.该文对三类不同的问题:一般图象分割理论、脑白质病变核磁图象、细胞显微图象的分割进行了深入的研究,并对于这三类不同的问题分别提出不同的解决方法.
学位
随着各个行业数据量的增加,数据外包存储得到了飞速发展。但是目前数据外包存储仍然存在较大的安全问题,云存储作为一种新型数据外包方式,自然存在较多的安全性问题。与传统的托管在服务器端的外包存储不一样,云存储相对更加开放、数据更易被攻击者轻易获取,这样数据外包存储在云端更容易遭受各种攻击和威胁。目前,数据外包存储面临的主要问题即是安全性问题。在另一方面,当前云环境下的隐私数据保护方法大都采用传统的加密技
学位
随着信息技术的快速发展,万物互连正在加快实现。物理域组件和信息域组件正在加快融合,形成信息物理系统(Cyber-Physical System,CPS)。  许多大规模的信息物理系统如智能电网、智能交通和智能工厂等的广泛应用为人民群众提供高效的服务,然而,其高度的开放性也使得系统面临严峻的网络攻击威胁。特别地,数据注入攻击能够简单地实施和引起物理子系统性能严重降级或组件破坏。数据注入攻击是指攻击者
台风的准确预报可以减少由于台风破坏和人员疏散造成的损失,对于沿海城市的防灾减灾具有重要意义。海表风矢量是台风模拟和预报的不可或缺的参数,而卫星遥感得到的海表风观测的有效同化对于改善台风路径预报和强度预报具有重要作用。然而受限于目前资料同化的处理流程,大量风场观测在台风强对流天气条件下并没有被很好地利用起来。此外,不精确的背景场,缺乏流依赖信息的背景误差协方差,高风速风场观测误差的不准确描述都会影响
社区问答平台成为了一种流行的社交媒介,在这种社交网络中,用户可以提出问题来获取信息,其他用户也可以提供专业答案来分享知识。与搜索引擎相比,社区问答能以一种更直接的方式满足用户的信息需求。面对海量的以问答对形式组织而成的知识库,用户容易面临信息过载。一个研究任务是,给定一个问题,系统自动地从其答案集合中选择一部分符合该问题的答案,以此来提高平台的智能化水平,节省用户的时间成本。另一个研究任务是,根据