论文部分内容阅读
人流量统计分析系统在办公场景有着重要的应用价值。通过对办公区域中不同时间段内各个功能区的人流量进行统计,可以分析得到办公区域中各个功能区的利用率,进而改善办公区域中不同功能区的划分,既可以方便员工使用,也可以实现对办公区域空间的充分利用。由于办公场景中员工身份较为固定,因此部署在办公场景中的人流量统计分析系统还可以通过人脸识别等算法增加员工考勤签到等更多功能。本文基于深度神经网络设计并实现了一种针对办公场景的人流量统计分析系统。该系统以部署在办公区域的监控摄像头拍摄的视频作为输入,通过计算机视觉算法对视频进行处理和分析。除了能够统计任意指定时间段内在监控场景中的人流量外,该系统还支持将指定人员的面部照片存入数据库,通过人脸识别算法对监控画面中的人物身份和已经录入信息的人员身份进行比对识别。最后,该系统将分析得到的监控视频中每一帧的人流量和时间戳、某一行人轨迹是否和数据库中存在信息的人员相匹配等信息存入数据库并可供用户通过定制的Web API查询语句进行信息查询。本文的创新点包括:(1)在人头检测算法中,预测边界框在像素坐标系下的位置的任务没有使用被广泛应用的均方损失函数,而是引入了 CIoU loss(Complete IoU loss),这使得验证集上的mAP(mean average precision)从0.39提升至0.42,提高了算法的精度。(2)对于行人重识别(Reid)算法的研究,在分析监控场景的特点后,使用各人头检测框之间质心的欧式距离代替图像特征之间的欧式距离,简化了算法并提高了算法的运行速度。(3)在人脸检测算法中,引入深度可分离卷积(Depthwise Separable Convolution),降低了人脸检测模型在推理时的计算量,提升了算法的推理速度,使其能够在CPU上实时运行。(4)人脸识别算法部分,为了克服Triplet loss训练难、收敛慢的缺点,本文没有使用当前最为流行的基于度量学习(Metric Learning)的人脸识别算法,而是通过训练一个人脸分类器,并对分类器的结构进行修改,使其输出可供人脸识别任务使用的特征向量,在保证人脸识别算法性能的同时降低了训练难度。同时,为了降低面部图像数据在向量空间中的特征向量在数据库中的存储成本,以及降低K近邻、mean-shift、K均值聚类等以特征向量为输入的算法的计算成本,本文在分类器末尾引入tanh激活函数,并对损失函数进行改进,使最终得到的特征向量只包含±1两种情况,将浮点型数值的存储和计算变为整型数值得存储和计算。除了核心算法的创新和实现,本文完成了包括搭建流媒体服务器、设计并搭建数据库和设计并实现Web API等一系列工程工作,最后在搭载了 NVIDIA GeForce GTX 1650的服务器上完成整套算法的部署,整套算法可在服务器上以30FPS的速度实时运行。