论文部分内容阅读
场景理解是计算机视觉和人工智能领域的研究热点,其研究成果已被广泛应用于机器人导航、网络搜索、安防监控、医疗卫生等众多领域。场景理解的各个分支任务,如目标检测、图像语义分割等,近年来都取得了突破性进展,但仍然存在众多不足之处。如由于目标自身形变和外界因素干扰,通常难以获得可靠、鲁棒的特征用于场景中的动态目标分类。深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)通过端到端的特征学习,能有效实现对场景图片的语义分类,但却难以实现对场景图片的精确语义分割。围绕上述问题,本文的主要研究内容如下:1)首先,提出一种基于多任务空间金字塔池化DCNN的动态目标分类方法。该方法首先通过高斯混合模型提取出视频中场景动态目标物体,经图像形态学处理而获得较为准确、完整的目标图像块。然后将获得的目标图像块送入多任务空间金字塔池化DCNN而实现对该目标图像块的分类,同时获得其语义标签。实验结果表明,高层卷积特征对部分遮挡、重叠、视角变化等具有较强的鲁棒性,多任务空间金字塔池化DCNN在动态目标分类任务上能取得很高的分类精度并给出较为准确的目标语义标签。2)其次,针对传统手工特征鲁棒性和表达能力的不足,提出一种将DCNN与MeanShift图像分割算法相结合的室外场景语义分割方法。该方法首先通过MeanShift算法对场景图像进行预分割,然后在分割后的各局部区域随机采集样本图像块并将其送入DCNN获得其类别概率,最后将各局部区域的样本图像块的类别概率进行平均获得其语义标签进而实现语义分割。关于DCNN卷积核大小、卷积核个数和训练数据集的扩展等因素对场景图像语义分割结果的影响做了研究分析。与基于SIFT局部特征描述子的SEVI-BOVW方法进行对比的实验结果表明,本方法在准确率和识别速度上均有较大提升。3)最后,基于DCNN,提出了一种联合物体检测与语义分割的场景理解方法,并将其与基于HOG(Histogram of Oriented Gradients)纹理特征及支持向量机(Support Vector Machine,SVM)分类算法的背景物体语义分割方法相结合应用于机器人的校园导航。该场景理解方法由Faster R-CNN算法检测场景图片中的前景目标物体,通过Deeplab-CRFs模型对场景图片中的前景目标物体进行语义预分割,最后由GrabCut前景提取算法将二者的检测、分割结果相结合而实现对目标物体更精确、更完整的语义分割。实验证明,该方法能准确、全面地对目标进行检测及语义分割,并有效用于机器人的校园导航。