论文部分内容阅读
行人重识别是跨监控摄像头大范围追踪行人的关键技术,在智能安防、智能商业等系统建设需求中起着重要作用。目前,由于不同监控设备的属性参数,拍摄视角和拍摄环境影响,行人目标视频在光照、图像分辨率、背景和姿态等方面存在较大差异,使得行人重识别任务在识别准确率方面难以满足实际应用需求。目前行人重识别算法存在着许多亟待解决的实际问题,如监控行人视频中冗余信息比较多、局部关键特征提取不充分。因此,针对上述问题,本文以深度学习方法为基础,提出面向视频行人重识别的关键特征提取和增强方法。研究内容主要包括以下两点。(1)为解决现实场景中由于视频信息冗余所带来的重识别准确率较低的问题,本文提出了一种基于关键信息多帧融合的视频行人重识别算法(Multi-frame fusion Part-based Convolutional Baseline,MFPCB)。首先采用感知哈希算法和三帧差分法交叉筛选待检测单摄像头下行人视频中相似度高和低质量的冗余帧,以提取视频中的关键特征。然后选择改进的Res Net-50网络作为基础特征提取网络进一步对筛选后的关键帧进行高层语义特征提取。最后利用MFPCB网络将不同视图关键信息聚合到单个紧凑的特征描述符中,并用余弦距离度量视频间的相似性。网络受交叉熵损失函数和距离损失函数的指导进行训练和优化。在公开数据集MARS和i LIDS-VID上进行一系列实验,实验结果表明本文提出的MFPCB视频行人重识别算法具有较高的Rank-1和m AP识别率,可以有效地解决视频信息冗余的问题。(2)为解决深度卷积神经网络无法有效提取和增强视频中局部关键特征的问题,本文提出了一种基于渐进式时空注意力的视频行人重识别算法。无需行人身体部位预分割或姿态对齐,时空注意力模块使用多尺度池化自适应地为行人视频中的局部区域分配不同的权重,从而有效提取出人体全局特征和局部关键特征。在实际应用场景中,多尺度池化操作可以使行人局部关键特征尽量不受光照、视角变化和复杂背景的影响。整个网络运用多任务学习思想,结合难样本采样三元组损失函数和交叉熵损失函数进行训练和优化。实验结果表明,渐进式时空注意力算法在MARS和i LIDS-VID两种数据集上的Rank-1识别率分别为84.1%和81.3%,分别高于基于图像的行人重识别基线算法3%左右和5%左右。可达到与现有典型视频行人重识别算法相当甚至更高的识别率,在局部关键特征的提取与增强方面具有优异的表现。本文在视频行人重识别的关键帧提取、局部关键特征提取与增强两个方面进行探索,提高了视频行人重识别的识别准确率,在智能安防方面具有良好的社会意义和商用前景。但是未来还需要进一步研究端对端训练的模型、模型轻量级构建和压缩操作,从而实现在低成本设备上完成实时性识别,提高行人重识别系统的实用性。