论文部分内容阅读
随着人工智能的发展,越来越多的智能设备如机器人能够在各种场景代替人类工作。在安防领域,很多场景需要安防人员进行巡逻,其中存在工作量大、危险性高等问题。这类情况下,使用机器人或无人车进行巡逻无疑将是更好的选择。因此,研究自主巡逻的机器人或无人车一直是人工智能领域的一大研究热点。视频导航,作为自主巡逻中的一种有效且常用的导航方法,是当前研究的一大热点。本文将针对视频导航中存在的若干问题展开研究,主要有:室内导航中的地图建立与自我定位、室外导航中的障碍物检测以及导航过程中可疑行人人脸的检测与识别等。本文的主要研究工作与创新如下:1.针对室内导航常用的设定路标和导轨方法难于实施,适应能力不强的问题,提出了一种快速易实施的基于引导人地图生成与自然路标选取的室内导航方法。该方法利用视频帧差法以及颜色信息,检测出引导人所在的位置,跟随引导人行走并记录路径,同时在行走过程中记录自然场景作为路标,从而形成拓扑地图,地图建立后可以在此基础上实现自主巡逻。由于不需要提前设定路标和导轨,所以易于实施,适应性强。实验结果表明,该方法在会议室、办公室以及实验室等复杂环境下平均导航成功率能够达到91.5%。2.针对室外导航中障碍物检测中难以区分障碍物与道路阴影和标志线的问题,提出了一种基于两帧间的几何投影模型的TCF障碍物检测方法。该方法不需要提前对摄像机进行人工标定以及其他先验知识,利用点在图像平面上投影的位置信息,通过两连续帧间的对应点的位置变化,来推断其在实际坐标中的高度信息,并利用高度信息区分真实障碍物和道路阴影、标志线。利用特征点的检测匹配,来计算特征点的高度信息,从而达到实时性要求。同时,为了提高检测准确率,本文还使用了置信滤波器来降低噪声的影响。最后,通过一种权值平均的方法来实现状态的更新,并在更新的同时再一步降低噪声、提高准确率。本文方法在障碍物检测上比常见的基于表征信息以及光流法等算法略高,特别是在区分障碍物与道路阴影和标志线方面,本文算法能够达到90%以上的准确率,远远超过其他算法。3.针对TCF方法对远处障碍物的高度难以估计的问题,提出了一种基于摄像机自运动消除和帧差法相结合的远距离运动障碍物检测方法。该方法从图像中提取运动信息,对摄像机自运动进行消除,然后再利用帧差法检测远处运动障碍物。同时,利用一种最小边界分割方法将障碍物区域进行分割,能够获得障碍物区域的置信度,从而判断障碍物的概率以及相对运动方向。实验结果表明,该方法对远距离运动障碍物检测能够达到90%以上的精确率与召回率。4.针对利用运动信息进行障碍物检测时容易受特征点检测结果影响而造成检测误差的问题,提出了一种基于单幅图像表征信息的深度学习障碍物检测方法。该方法将图像分块,并利用深度网络对候选块进行分类,从而将图像中的障碍物区域分离出来。在深度网络的学习过程中,考虑到候选块只具有局部信息,该方法利用局部信息与整幅图像的全局信息相融合的方式组成深度神经网络。实验结果表明,该方法比其他常见方法在准确率和召回率提升1%-15%,对于障碍物检测,在DUSSB数据集以及本文的视频导航实验中,最重要的召回率指标能够达98%。5.针对传统方法对导航视频人脸检测效果较差的情况,提出了一种基于人体分块模型的人脸检测方法。该方法受到行人检测的人体分块模型的启发,考虑到巡逻视频中行人的人脸与身体其他部位一般会被同时捕捉到的情况,按照人体分块模型,利用深度网络,学习到一个适用于巡逻视频人脸检测的分块深度模型。实验结果表明,该方法相对于著名的Viola-Jones方法,准确率和召回率都有7%-47%的非常明显的提高。对于相对重要的召回率指标,在NICTA数据集上能够达到67.56%,在本文的视频导航实验中能够达到80.87%。6.针对实际应用中需要快速准确地分析海量视频数据,本文基于一种“海云协同”架构开展了相关研究,提出了一种局部与全局两种模型结合的深度网络学习方法,并用于巡逻过程中的行人人脸识别。该方法利用深度网络在海端学习得到局部模型,而云端通过海端上传的局部模型以及少量的数据,重新整合调优,得到到准确度更高的全局模型。经过整合后的云端全局模型,只利用少量数据便可以达到用所有数据学习出的全局模型的准确率,从而减少了带宽占用。实验结果表明,该方法在MNIST手写库和LFW人脸数据集上,在上传量达到1/6时可以达到并超过用所有数据训练出来的全局模型1%以上的准确率。上述所有方法作为中科院先导科技专项“感知中国”的“网络视频传播系统与控制(XDA06030900)”课题中的一部分,已在本文研究搭建的室内自主移动平台Rovio和室外自主移动平台Mobot上进行了实物样机的实验验证。