论文部分内容阅读
目标检测技术是光电探测成像与计算机视觉领域中的一个重点研究方向,传统的目标检测方法很难适应变化多样的场景,检测效果也不尽如人意,如今,卷积神经网络(Convolutional Neural Network,CNN)在图像分类和识别方面取得了重大突破,使得目标检测技术达到了一个新的高度。本文在充分研究CNN的基础上,针对当前网络模型在目标检测方面出现的精确率低、小目标召回率低等问题,提出了一种融合还原层的GoogLeNet卷积神经网络模型用于行人检测,并在此基础上采用基于SSD(Single Shot Multibox Detector)的卷积神经网络模型进行行人与多目标检测。本文的创新点和主要研究内容包括:(1)设计了融合1*1还原层的GoogLeNet卷积神经网络行人检测系统。利用1*1还原层紧跟3x3和5x5卷积层来取代Inception模型,有效减少了参数数量,改善了网络的收敛性,提高了模型的特征表达能力。(2)利用loss损失函数优化定位框。根据改进的模型重新定义loss函数,输出结果表明,随着网络迭代次数的增多,loss逐渐拟合了训练数据中的噪声和训练样例中没有代表性的特征。在VOC2007+2012数据集上对改进模型进行实验,结果表明,本文所提出的行人检测模型取得了93.1%的精确率(优于AlexNet模型1.6%),在ROC曲线上取得了0.96的AUC值(优于AlexNet模型0.03);在实景数据评估中,本文模型取得了95.47%的精确率(优于AlexNet模型4.11%)。(3)针对融合还原层的GoogLeNet模型小目标召回率低的问题,采用基于SSD的卷积神经网络模型进行多目标检测,并通过实景采集的数据评估模型性能,结果表明,针对行人、自行车、汽车的多目标检测任务,本文模型取得了89.47%的平均精确率(优于Faster R-CNN模型11.86%,优于YOLO模型16.81%);针对行人检测任务,本文模型对小目标行人召回率为82.97%(优于AlexNet模型18.02%,优于融合还原层的GoogLeNet模型20.04%)。