论文部分内容阅读
基于图像和视频的行人检测是行人跟踪、行为分析、步态分析、行人身份识别等研究的基础和前提,也是计算机视觉领域最重要的研究方向之一。随着时代的发展,无论是视频监控、车辆辅助驾驶还是智能机器人,人们对行人检测的需求日益渐长。近年来有关基于深度学习的行人检测算法陆续被提出以解决传统手工方法对行人检测精度低、速度慢的缺点。现有基于深度学习的行人检测算法占用资源大,精度和速度均有待进一步提高,无法满足实时监测的需要。本文以微型YOLO为原型,对基于YOLO算法的行人检测进行研究,并在此基础上对其进行改进。使用SSE算法对候选框进行聚类,采用多尺度训练策略在混合数据集上进行训练,给出的改进模型占用存储空间小,进一步提高了检测的精度和速度,模型的泛化能力得到增强。具体工作如下:(1)对行人检测的研究背景与意义进行阐述,并对传统行人检测与深度学习行人检测的国内外现状进行研究;介绍了行人检测相关技术,包括基于传统方法、深度神经网络的行人检测;对微型YOLO算法进行详细解析,并在INRIA标准数据集上给出了初始实验结果。(2)给出了改进YOLO网络结构的行人检测模型。对yolov3-tiny网络结构进行了不同方式的改进。为了加快检测速度,采取细粒度多尺度融合方式,在原网络结构最后增加一个特征图输出构成新网络结构yolov3-tiny2;其次为了避免检测过程中信息丢失的缺陷,在原网络模型主干网络位置增加一个卷积层与两个残差模块构成网络模型yolov3-tiny3;最后为验证两者结合是否会具有更大的检测优势,将以上两种方法结合得到yolov3-tiny23。通过实验对比分析,本文提出的网络改进方法在准确率、检测速度和空间资源占用等方面分别有所提升。(3)给出了基于混合数据集多尺度训练的行人检测模型。模型采用SSE优化Kmeans聚类算法的k值,并通过网络训练参数的优化和多尺度训练策略在自定义数据集与标准数据集PASCAL VOC、INRIA上进行分类器训练。实验表明,采用混合数据集多尺度训练方法训练分类器,在维持检测速度的同时,无论是在查准、查全率上,还是在边界框平均交并比上都得到了进一步的提高,模型泛化能力更强。