论文部分内容阅读
计算机视觉发展至今一直备受工业界和学术界极大关注,这使得机器尽可能地模仿人类视觉,使之能够自动识别、分析和感知周围环境中人和事物的各项活动。人类活动规律成为首当其冲的关注和研究内容,人体姿态估计作为其中一个重要的研究热点,其主要任务是在给定的图像或视频对人体关键部件和关节进行检测,输出人体全部或局部的肢体信息。近年来,得益于卷积神经网络的提出和应用,人体姿态估计取得长足进步。目前,大多数姿态估计方法主要专注于提高姿态估计的性能,而忽略效率。同时姿态估计任务本身存尺度差异、背景复杂、遮挡拥挤、姿态差异、标注误差等诸多难点,这使得姿态估计任务落地困难,尤其是针对自然场景的人体姿态估计。基于上述背景,本文围绕自然场景下的多人姿态估计展开研究。通过分析国内外人体姿态估计的研究现状,针对姿态估计的难点,提出了基于注意力的选择性姿态蒸馏方法和基于姿态蒸馏的模型轻量化方法,专注于通用性姿态蒸馏方法和轻量化模型的设计与实现。(1)本文提出了基于注意力的选择性姿态蒸馏方法。首先设计了表达能力强、参数量大的知识网络和轻量的基础网络,然后使用基于注意力机制的姿态蒸馏迁移知识网络的结构化知识,有效改善轻量模型对部分模棱两可和欠学习样本的表达和鉴别。(2)本文提出了基于蒸馏的轻量化姿态估计方法。参考海盐浓缩的原理和改进多模型间知识迁移沟壑,设计自动精化级联网络知识策略,在同一个模型之间进行启发式学习,在保证模型损失较小精度的情况下,大幅度减少模型的参数量和计算量。为了验证所提方法的有效性,在自然场景采集的公开数据集MPII和LSP进行了完备的实验,实验验证了方法的可行性和鲁棒性。