论文部分内容阅读
目前智能化发展已成为一种趋势,而计算机视觉是人工智能的一个重要的研究领域,由于其非常广泛的应用及能带来巨大的商业价值,成为工业界和学术界的青睐。行人检测作为目标检测中的一个经典问题,在许多实际应用场景中包括安防、无人驾驶、监控和机器人等领域,都具有十分重要的科学价值。在实际场景的行人检测过程中,由于人所处的环境复杂多变,人的穿着,外界光照变化及所处背景的改变,各种各样的身体姿态,被遮挡等因素造成行人的外观差距很大,准确快速的行人识别与定位依旧是颇具难度和挑战的研究任务。针对这种现象,本文研究了基于单目多目标检测器(Single Shot MultiBox Detector,SSD)的卷积神经网络模型,改进后的算法在检测速度和检测精度两个方面上相较于当前经典的SSD算法都有了一定的提升。本文的具体工作如下:(1)在提高算法的训练速度方面,本文改进了SSD网络的基础网络部分。为了减少卷积神经网络复杂计算量,使用具有不同尺寸的卷积核来限制输入信号的数量,并通过添加单通道的卷积层来降低网络维度。由于每层的输入数据在训练时的分布会发生变化,导致一定程度上的信息丢失,因此在每一个卷积层的输出端都加入了批规范化,使下一层神经网络的输入分布保持相同,从而加快网络训练时收敛的速度,同时提高卷积网络的检测速度。(2)在提高算法的检测精度方面,本文优化了SSD算法中卷积神经网络的特征提取方式,使得最终输出的特征能更好的表达出输入图像的各个维度的特征信息。该方法的基本过程有三个,分别为从下至上的不同维度特征生成,从上至下的特征补充增强,以及卷积神经网络层特征与最终输出的各维度特征之间的关联表达。神经网络的深度、卷积核大小和特征层选择对目标检测的性能有很大的影响,本文基于目标检测算法SSD进行深入研究,提出了一种基于改进SSD的稀疏连接的多尺度融合行人检测方法,这种算法在训练速度和检测精度上都取得良好的性能。通过在PASCAL VOC和CUHK Occlusion图像数据集上的实验数据进行对比,表明本文采用的一些优化设计比原有算法具有更高的准确性,检测速度达到31fps满足实时性要求,具有一定的应用价值。