论文部分内容阅读
场景目标检测与分类技术是机器视觉研究领域的热点问题。目标的检测、分类以及语义分析是实现场景理解的先决条件。场景理解的主要信息来源有图像和视频,再结合需要检测的处理对象不同,将场景目标检测分为基于视频序列和基于单帧图像的目标检测。前者常利用多帧图像信息检测出动态变化的区域,再进行目标分类和跟踪。后者是在单幅图像中识别并提取出所有已学习过的感兴趣类别目标。目标正确识别及在原图中的精准定位是高层次视觉分析任务的基础步骤之一。近年来,深度卷积神经网络具有通过对大数据样本的学习而自主获取物体特征的特性,避免了传统识别算法中复杂的特征提取和数据重建过程,是解决各类计算机视觉问题的一类有效方法。本文主要研究内容如下:(1)提出了基于卷积神经网络(Convolution Neural Network,CNN)的动态目标分类方法。在整个方法中利用逻辑性分析解决了高斯混合模型(GMM)提取的运动区域存在多目标融合的情况,得到较为完整且独立的运动目标。再利用深度卷积神经网络去学习运动目标的固有静态特征,结合softmax回归分类器进行分类。该方法通过实验说明在运动目标区域检测不完整和同类别重叠等情况仍能准确分类,同时拥有分类精度高、处理速度快的优点。(2)提出基于ACF(Aggregated Channels Feature)及卷积神经网络的图像目标检测方法。针对ACF检测图像行人和车辆目标存在部分误检的问题,利用经卷积神经网络对候选框进行二次识别,剔除误检的背景框。该方法既利用了ACF召回率高的特点,也结合了卷积神经网络高识别率的特点。最后通过实验说明了改进方法在不影响检测实时性和召回率的同时大大提升了检测准确率。(3)提出基于ACF及多任务式学习的卷积神经网络的图像目标检测方法。此方法不仅能够准确快速的检测出图像中的目标,还可以根据多任务式学习的特点对目标增加丰富的语义信息。通过行人和车辆检测实验,说明了该方法在提高检测准确率的同时可以获得行人、车辆目标的混合行为语义。如一个候选框在判别为是一个行人的基础上,还可以判别其运动方向是正或侧以及运动状态是行走或奔跑。该方法可以应用在移动机器人平台上,利用场景中多个行人、车辆的图像位置信息和混合行为语义共同分析场景异常行为。