论文部分内容阅读
随着互联网技术的发展,智能视频监控系统已经渗透到生活的方方面面,行人检测与重识别是视频图像分析中的一个主要的研究方向。然而,由于摄像头的地点、角度、背景信息、光照情况以及行人姿态等的复杂性,给行人检测与重识别任务带来困难。现有的检测方法和重识别方法往往存在行人图像特征表达不准确、特征距离度量学习效率低、准确率低的缺陷。针对现有研究方法的不足,本文结合深度学习的理论和方法对视频监控图像中的行人精细化识别、行人重识别、行人哈希检索的关键问题进行研究。本文的主要工作如下:1.行人精细化识别的主要难点是行人属性的识别。本文提出了基于多任务联合和多模型融合学习的行人精细化识别方法以提高行人识别的准确度。该方法首先完成了基于YOLOv2的行人检测以及子部件二次检测,实现对行人子部件的精准定位。然后进一步对行人属性进行识别。在行人属性识别过程中,针对行人性别属性具有语义程度较高的特点,本文提出基于多任务联合学习的思想,将行人性别属性与其他属性联合训练以改变学习过程。此外,本文融合了VGG16和ResNet50两种卷积神经网络模型实现针对行人上衣款式、下衣款式、上衣颜色、下衣颜色属性的识别。实验表明,行人性别属性识别准确率达到78%,同时长短发属性准确率达到88%。有关衣服款式属性的识别准确率达到80%以上,衣服颜色属性的识别准确率高达92%。2.行人重识别的主要难点是提取出具有距离度量特性的行人特征码。本文提出了联合子部件的行人重识别模型,并结合子部件提取出行人特征码。该模型以三元组图像为输入,基于行人目标自然区域划分的思想和ResNet-50卷积神经网络结构实现对行人图像全局ID和子部件ID的提取,并通过最小化“难样本采样三元组损失函数”调整图像特征ID,使得同一行人目标特征ID的空间距离更相近,不同目标特征ID的空间距离更远。该模型同时考虑到局部和全局图像信息,比较全面地描述了行人特征。在数据集VIPeR上对该模型进行实验验证,其Rank-1的值为53.3%,实验证明,联合子部件的行人重识别模型具有更高的识别精度。3.图像哈希检索的目的是快速地对图像进行检索,主要难点是如何把图像转换为哈希码。本文提出了基于度量损失的行人哈希检索模型,该模型基于卷积神经网络实现行人图像特征的提取,并将量化损失考虑在图像特征学习中。联合度量损失和分类损失自动学习哈希码,并对哈希码进行检索。实验证明,分类损失使得图像能够学习到语义区分能力较强的特征,度量损失的引入使得哈希码的信息损失更低,该模型有效地提高了行人检索的CMC值。