论文部分内容阅读
随着人工智能的兴起,计算能力的不断提升,基于神经网络的深度学习算法展现出了惊人的表现,尤其在视觉感知方面,计算机在多种任务和场景下已经超过人类水平。因此本文从行人检测这一特定的视觉任务入手,对行人检测算法进行改进优化。本文的主要工作如下:(1)介绍卷积神经网络的设计原理和准则,分别介绍的卷积神经网络的基本组件,损失函数,正则化方法,网络优化和加速方法以及它的具体应用。(2)主要研究了基于Faster R-CNN的行人检测方法,当前基于深度卷积网络的目标检测算法中,Faster RCNN是其中最经典的方法之一。由于行人检测与通用目标检测的相似性,Faster RCNN可以用来检测行人。但是行人和通用目标比如车在形态等方面的差异,如果将Faster RCNN不依照行人形态特征做相应的定制化修正,势必在性能上无法达到最优。所以本文首先研究了如何将Faster RCNN应用在行人检测问题上。(3)提出一种由粗到精的行人检测方法。顾名思义它由两个阶段的检测完成。首先由一个快速的行人检测器完成行人候选框的粗提取,在上一步粗提取的结果上用一个轻量级的分类网络对粗提取结果进行精细分类,从而完成整个行人检测过程。(4)提出一种利用语义分割信息来改进行人检测性能的方法。行人检测是计算机视觉的主要问题,它主要包括两个子任务,一个是检测,另一个是语义分割。这两个任务具有一定的相似性,也有不同之处。行人检测可以给出不同行人的包围框,但是行人的边界无法给出,语义分割可以准确给出行人的边界,但是不易区分不同的物体。本文探讨如何利用语义分割信息在不影响行人检测效率的前提下提升行人检测的准确率,并且相关实验验证了该方法的可行性。