论文部分内容阅读
人脸关键点检测是一项检测人脸面部关键点位置的视觉任务,在人脸识别、表情识别、人脸动画等领域有着重要的作用,近年来受到越来越多的关注。但是,现有的人脸关键点检测算法通常只考虑如何提高模型的泛化性能,不考虑效率问题。泛化性能好的模型往往包含着巨大的参数量,这导致了这些算法在实际应用中实用性差和可扩展性低。本文引入视觉注意力机制和知识蒸馏的策略,着重研究轻量级人脸关键点检测算法。首先,基于经典的沙漏网络模型(Stacked Hourglass Network,SHN),在不增加模型参数量的前提下,本文提出了一种注意力机制引导的从粗略到精确定位的网络(Attention-Guided Coarse-to-Fine Network,AGCFN)。由于回归模型的扩展性不佳,主流方法采用生成关键点热图(Heatmap)的方式来提高模型的泛化性能。这类算法的输出是多个独立的热图,因此忽略了热图之间关联信息,导致预测的关键点之间缺失位置约束信息。本文提出了一种注意力机制引导的从粗略到精确定位的人脸关键点检测网络,利用视觉注意力机制(Attention Mechanism)来学习通道特征之间关联信息,在不增加模型参数量的情况下进一步提高人脸关键点检测精度。具体分为通道注意力模块和空间注意力模块,通道注意力模块用来模拟通道之间的相互关系,空间注意力模块用于模拟预测图的中二维空间的位置信息。实验证明,相比SHN模型,AGCFN模型在300-W数据集、300-W专用测试集和WFLW数据集上取得了更高的关键点定位精度。在引入人脸关键点之间的结构信息后,沙漏网络的泛化性能有明显提高。但是,沙漏网络应用于人脸关键点检测时还存在结构复杂、时间开销大等问题。为了进一步降低网络的复杂度和参数量,论文引入了知识蒸馏的策略,在保持网络泛化能力的同时训练一个参数量更小轻量级网络。知识蒸馏的原理是通过一个复杂度和参数量大但鲁棒性强的教师网络,通过有监督学习训练出泛化性能较强的轻量级的学生网络。我们把鲁棒的AGCFN当做教师网络,学生网络的结构和教师网络一样,但是网络深度减少到只有教师网络的一半。通过知识蒸馏的学习策略,将鲁棒的教师网络的关键点结构知识传递给轻量级的学生网络,使学生网络能够以较低的计算成本进行快速的训练。此外,为了进一步降低学生网络的参数量,深度可分离卷积被用来取代标准卷积来降低计算量。与最新的人脸关键点检测方法相比,轻量级的学生网络在参数量下降巨大的情况下,仍然能在权威的300-W数据集上也取得了较高的人脸关键点定位精度。综上所述,本文首先通过沙漏网络和注意力机制训练一个教师网络模型,这个模型在应对各种场景的人脸时较为鲁棒,然后通过知识蒸馏的策略将鲁棒的教师网络的关键点结构知识传递给轻量级的学生网络。实验证明,通过知识蒸馏策略,轻量级的学生网络在常用的数据集上也取得了很有竞争力的表现。