论文部分内容阅读
人体姿态估计是指定位图片中人体中头、肩、肘、腕、髋关节、膝盖等关键点的技术,可用于人机交互、运动分析和动作识别等领域。相比传统的姿态估计算法,卷积神经网络的方法在人体姿态估计方面取得突破性进展,使姿态估计的准确性和泛化性大大提高。现代的姿态估计普遍采用卷积神经网络回归热图的方式定位人体的关键点,本文针对热图回归中关键点的检测精度和卷积神经网络的效率问题做了研究并分别提出了对应的算法模型。论文的主要贡献如下:(1)提出一种多尺度中间监督卷积网络的人体姿态估计算法。现有算法使用单一尺度热图标注非单一尺寸的关键点,作为CNN模型的监督信息,这种监督方式会导致预测关键点偏离真实位置的可能性增大。为了提高预测准确度,本文方法首先通过控制改变二维高斯分布的标准差在关键点上分别生成大尺寸、中尺寸、小尺寸的热图标注,利用Res Net50作为骨干网络,组成三个阶段的残差网络模型,第一、二、三阶段Res Net50的热图输出分别对应大、中、小尺寸的热图标注,在第一、二阶段的输出实现两次的中间监督;在测试阶段使用最后阶段的热图输出,进行非极大值抑制选择热图中心的作为最后的关键点坐标。结果在COCO和MPII这两个常用人体姿态估计数据集上进行验证。在MPII验证数据集上的测试结果[email protected]达到37.2%,相比Resnet152提高了2.1%,PCKh达到89.94%;在COCO验证数据集上测试的结果m AP达到75.5%,相比其他方法提高了1.2%,在AP.5、AP.75、AP(M)、AP(L)、AR五个项目中取得0.5%~1.5%的领先。结论本文提出的多尺度中间监督卷积网络模型,减少因关键点尺寸与热图尺寸不对应在姿态估计中的影响,从而提高了姿态估计的准确了,在评价标准更严格时取得更好的表现。(2)提出一种高效的人体姿态卷积网络。现有的人体姿态估计方法往往只考虑如何提高模型的泛化性能,通常会增加模型的参数来获得大的模型,大幅增加网络模型的大小,也的确带来了准确率的提高,而忽略了显著的效率问题,准确率的提升带来大幅度增加的计算量和冗余的参数,使得模型的运算时间变长,显得效率较低。本文使用Efficientnet作为姿态估计模型的骨干网络,有效提高了姿态估计的效率;分别研究了两种用于处理特征输出、回归热图的子网络,得到M0和M0*两种模型,进一步提高了模型的效率;研究了基准姿态估计模型中,分别在网络的深度、宽度、分辨率三个维度进行扩大的效率,发现持续增加单一维度的网络模型、准确率会迅速饱和,使网络的收益降低,本文使用复合扩大的方法,在网络的三个模型进行同时扩大,每次增大后模型的运算量增加1.5倍到2倍。在获得的准确率相同的情况下,本文方法的参数量和运算量都远远小于与近两年的方法。