论文部分内容阅读
行人再识别指的是利用计算机视觉领域的知识,在不相交的摄像机区域中寻找特定行人的技术。行人再识别因其在公共安全领域中有着极为重要的应用价值,备受产业界和学术界的关注。行人再识别的挑战集中体现在三点:(1)不同相机视角下,行人的姿态,环境的背景和光照之间存在显著差异;(2)数据集的分辨率较低,只能利用行人的粗粒度特征如轮廓,颜色,而无法利用图像识别任务中常用的细粒度特征如人脸五官的特征;(3)当前行人再识别方法过于依赖深度神经网络,对硬件设备的计算能力也有着较高的要求。针对行人再识别的视角变化问题以及当前行人再识别方法对于复杂模型的依赖,本文开展了两项研究工作:一是借助生成对抗网络在图像生成领域中的优势缓解相机视角变换带来的影响,从而提高行人再识别的识别精度;二是将模型压缩技术嵌入到当前的行人再识别模型中,在不影响识别精度的前提下,大幅度降低行人再识别模型的复杂度。(1)现有的行人再识别方法主要依赖于隐式解决方案,例如寻找不同视角下的鲁棒特征或寻求于距离度量的帮助。与这些方法相比,人类的做法更为直接。即在匹配目标人物前先想象目标人物在不同摄像机视角下的外观。其中的关键在于,人类可以本能地实现视角的迁移,注意到行人在不同摄像机视角下的关联性,但是机器却很难做到。在本文中我们将尝试模仿人类的这种行为,即在匹配之前,先将行人的图像转换到特定的相机视角下。基于此我们提出了一种条件迁移网络(c Trans Net),该网络可以实现针对性的视角转换,即通过一种变体的生成对抗网络将图像迁移到具有最大域间隙的视角下。之后通过将原始图像的特征与迁移的图像融合,再根据余弦距离进行相似度排序。与以前的方法相比,我们提出了一种显示解决方案,并且在Market-1501,Duke MTMC-Re ID和MSMT17数据集中的实验表明,我们提出方法的rank-1精度分别获得了3%、4%和4%的提高。(2)现有行人再识别深度学习网络虽然能实现较高的识别精度,但普遍存在网络结构复杂,运算量大等问题,这也直接导致深度学习网络对显卡以及内存等硬件设备的依赖。基于以上,我们将剪枝技术内嵌到现有行人再识别模型中。在实际实验中,我们使用在Image Net预训练的Des Net作为基线模型,再在Market-1501数据集上进行微调,根据特征图的激活状况对不同层特征图进行排序并按照排序进行剪枝。实验证明在Market-1501上,我们的方法在保证模型性能的前提下,可以减少58%的模型参数,降低57.12%的运算量。