论文部分内容阅读
随着人工智能产业的发展,计算机视觉在人们的生活和各种行业中占据了越来越重要的地位,大面积应用于交通出行、平安城市、无人机、金融服务和机器人等场景中。其中,视频中人脸识别技术是计算机视觉领域的一个核心研究问题。目前,静态图像中的人脸识别技术已经逐渐成熟,准确率也比较高,但是将其应用于视频中的人脸识别时,算法的时效性比较差,无法满足视频中人脸的实时识别需求。针对视频中人脸的实时识别需求,本文基于Caffe框架,在LFW和YTF公开人脸数据集及摄像头拍摄的视频数据集上,提出了一种基于深度学习的人脸识别框架,并针对其准确率和时效性问题进行了持续改进。主要工作如下:1、提出了一种基于深度学习的人脸识别框架FR-DL,集成了 MTCNN人脸检测、仿射变换人脸对齐、lightened CNN人脸特征提取和余弦距离人脸匹配等。2、将视觉跟踪引入到FR-DL中,提出了一种基于视觉跟踪的实时视频人脸识别框架RFRV-VT。框架将视频进行分组识别,组内实现人脸识别和人脸跟踪,组间采用双重匹配实现人脸信息连接。为了进一步提高RFRV-VT的时效性,将哈希索引引入到人脸匹配中,把人脸特征转换为哈希特征,并采用两阶段匹配方法进行人脸匹配得到新的框架RFRV-VT+,大幅度提高了 FR-DL的识别效率,满足了实时人脸识别的需求。3、设计了一种基于ResNet残差结构的人脸特征提取网络32RBSNet和一种特征融合方法,将二者结合生成了一种人脸特征提取算法FFA-32RBSNet,并将之应用到RFRV-VT+中得到新的框架RFRV-VT++。以轻微降低RFRV-VT+的时效性为代价,较大幅度地提高了 RFRV-VT+的识别准确率。实验结果表明,本文提出的框架在持续改进后,能够很好地满足视频中人脸的实时识别需求。最后的RFRV-VT++框架识别准确率达到99.48%(LFW)、94.2%(YTF)和99.6%(监控视频数据集),时效性达到27.4帧/秒(YTF)和30帧/秒(监控视频数据集)。