论文部分内容阅读
图像语义理解是计算机视觉领域中重要的研究方向之一,其研究成果可应用于机器人导航,无人驾驶,虚拟现实,图像检索等众多领域,具有重要的实用价值和学术研究意义。图像语义分割是图像语义理解的任务之一,结合图像像素分类,从整体上理解图像包含的目标,并给出具体的目标区域轮廓。目前主流的方法一般首先提取图像中的特征,并对图像像素进行分类,然后利用概率图模型来提高像素分类,即图像理解的精度。上述方法需要解决两个问题:(1)如何提取高效的特征,进而提高像素分类的精度;(2)像素初步分类的结果如何结合概率图模型,利用图模型的约束关系来减少误分类,提高最终图像理解结果的精度。针对上述两个方面的问题,本文提出了利用多尺度深度学习进行图像理解,以及深度学习和条件随机场模型结合进行图像语义理解的方法。具体工作如下:(1)针对提取高效特征,并进行图像像素分类的问题,本文提出一种多尺度深度学习图像语义理解方法。该方法利用多尺度卷积神经网络交叉迭代来获取图像的稠密性特征,对图像的尺度变化具有较好的鲁棒性。同时,将深度学习与超像素分割相结合,修正超像素块内的像素类别,进一步提高像素分类的准确率。相关对比实验证明了方法的有效性。(2)将条件随机场模型的平滑约束引入到深度学习框架中,提出了平滑约束下的卷积神经网络损失函数。该函数可将像素分类结果的平滑约束融入到卷积神经网络的迭代过程,提高深度学习的速度和效率。实验结果表明加入条件随机场平滑约束后的图像理解精度有了较大程度的提升。