论文部分内容阅读
行人再识别技术是智能视频监控中的一项关键技术,该技术研究跨摄像头的行人识别与跟踪问题,根据查询行人图像,检索该目标行人是否出现在其他场景中。行人再识别可以应用于刑事侦查、失踪人员检索、多摄像机行人跟踪和行为分析等领域,是目前计算机视觉领域的研究热点。由于摄像机采集图像的时间和位置不同,获取的行人图像不可避免地存在背景、视角、光照和行人姿态的变化,导致同一行人在不同监控场景下存在很大差异,使得行人再识别问题面临巨大挑战。本文主要研究基于场景迁移与区域对准的行人再识别方法。主要研究内容有:首先,在当前公开行人再识别数据集中存在行人与行人检测区域不贴合的问题,这种问题主要表现为数据集样本背景面积过大,背景物体干扰等情况,会对于行人特征的提取和识别造成影响。因此,本文提出了基于语义分割的滑动窗口对准法(Sliding Window Alignment,SWA)。方法使用Mask RCNN和Refine Net提取出的前景区域进行未对准检测,并将图像在竖直方向分区,获取行人在图像中的位置,使用滑动窗口机制,使得行人的轮廓更加贴合输入图像的边界。其次,针对目前现有行人再识别训练样本不足以及识别率不高的问题,提出基于行人特征恢复的场景迁移方法(Pedestrian Feature Recovered GAN,PFRGAN)。使用语义分割方法(Refine Net)对前景行人区域进行分割,对背景区域部分使用生成式对抗网络进行各个场景之间的图像迁移,从而在保留行人特征的前提下生成出具有更多背景变化的辅助数据集。最后,基于前两部分对行人再识别数据集进行了对准和补充,根据数据集的调整,改进残差卷积神经网络结构Res Net-50,提出双路特征扩展网络(Double-path Augmentation Net,DFANet),在原始结构中增加全局特征分支,将对准后的原数据集和补充数据集分两路进行训练。同时加入Drop Block机制,丢弃特征图中具有语义信息的区域,增加其他区域在识别中的权重。并且对于生成的补充数据使用标签平滑机制(Label Smoothing Regularization,LSR),抑制了正负样本在输出中的差值,从而提升了深度学模型的适应能力。实验中将本文提出的方法在公共数据集Market-1501和Duke-MTMC-re ID上进行测试,最终在两个数据集上Rank-1指标分别取得了92.2%和83.4%的准确率。