面向复杂场景的鲁棒人体姿态估计算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xiange
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体姿态估计是指在图像/视频中检测定位人体的关键点位置,并以此估计人体姿态的过程,作为人体行为理解的重要支撑技术,具有重要的研究意义与广泛的应用价值。在复杂多变的现实场景中,遮挡、相机角度和多尺度等因素严重影响人体姿态估计算法的性能,因此对自由度较高的人体进行姿态估计仍面临很多挑战。本文面向现实复杂场景,基于深度学习和注意力机制,研究了如何充分利用深度特征提高人体姿态估计模型的性能。本文的主要工作概括如下:1)提出了一种基于通道注意力的人体姿态估计算法。针对图像中人体尺度多变的问题,构建了多分辨率特征提取骨干网络,从高分辨率的子网开始,逐渐增加到低分辨率的子网,这些多分辨率的子网并行连接,以此提取人体的多分辨率特征。另外,为了重点关注人体姿态相关的部分重要信息,在此骨干网络基础上,本文通过引入通道注意力,对每一卷积层并联一个权重计算分支网络,以此强调重要特征,抑制相对次要的信息。本章提出的方法在COCO 2017数据集上进行了验证,平均精度为73.2%,优于如SCARB和Simple Base Line的主流人体姿态估计模型。2)提出了一种基于通道频域增强的人体姿态估计算法。在计算机视觉中,神经网络模型提取特征信息的能力会影响最终效果,丰富的特征表达可以带来更好的效果。传统通道注意力的全局平均池化会抑制一部分特征信息,使得生成的特征图中只包含了原图像中部分信息。为解决这一问题,本文将图像的深度特征从空域转换到频域,即以离散余弦变换操作替换传统全局平均池化,从而保留更多深度特征信息,实现了一种频域增强的通道注意力,并以此为基础设计了一种通道频域增强的人体姿态估计算法。本章提出的方法在COCO 2017数据集上进行了验证,可取得平均精度为73.4%的效果。3)提出了一种通道与位置注意力联合引导的人体姿态估计算法。对于人体姿态估计,关键点间的相互关系及其位置信息同样非常重要,尤其是在部分关键点遮挡的情况下,仅考虑局部信息会导致估计错误。前述方法引入的通道注意力仅考虑了特征图间的重要性,为此本章在其基础上进一步引入位置注意力来对人体关键点的位置信息进行建模,实现空间远距离特征和交互特征的联合表征,提出了通道与位置注意力联合引导的人体姿态估计算法,可达到更为鲁棒的估计效果。本章提出的方法在COCO 2017数据集上进行了验证,平均精度为73.7%,其性能优于如PRTR,RMPE和Pose Fix等主流人体姿态估计模型。
其他文献
时间序列通常是指在相同时间间隔上对特定观测点连续取值形成的一组数据。在时间序列的很多应用领域中,一个分类对象可能同时对应多个不同维度的观测点,这些观测点采集的连续数据共同构成多维度的时间序列。当前关于一维时间序列的研究已经很充分,但多维时间序列问题尚未得到充分研究。如何有效地提取多维时间序列中多维度之间的特征,是当前时间序列领域的难点之一。唇语识别作为多维时间序列的应用场景,其本身也是人工智能领域
随着智能交通系统的飞速发展,毫米波(Millimeter Wave,MMW)雷达技术因具有成本低、探测精度高、抗恶劣天气干扰能力强以及全天候不间断监测等诸多特性,被广泛地应用在自动驾驶、智慧高速建设等多个场景中。然而MMW雷达体积小的优势也带来了角度分辨率难以提升的挑战,若MMW雷达角度分辨率过低,将无法正确地分辨前方间隔较小的车辆或者行人,在实际的车载或者高速检测的应用场景中将会造成致命的影响。
近年来,有机无机杂化卤化物钙钛矿因其优异的光电性能引起了人们的广泛关注,已成为开发下一代太阳能电池最有前途的材料。最为突出的是ABX3型杂化钙钛矿,例如CH3NH3Pb I3(MAPb I3)和CH(NH2)2Pb I3(FAPb I3),由于其高载流子迁移率、高吸收系数、高开路电压、合适的带隙、低载流子复合率等优异性能,已经被看作是一种优越的光伏材料。然而,以MAPb I3和FAPb I3为代表
目前现代化都市圈建设上升为国家战略。市域快线可大幅缩短通勤时间、实现都市圈内部互联互通、促进区域协调发展,已成为都市圈建设的重要引领。市域快线由于设计时速高、列车轴重大、车站间距远,导致列车对轨道结构的冲击作用增大,势必产生严重的轨道交通振动问题,进而影响市域快线安全、绿色发展。钢弹簧浮置板轨道作为特殊减振措施已在地铁线路广泛应用,但市域快线与地铁制式不同,实际工程尚极少采用该结构,对其缺乏深入研
近些年道路交通的发展在很大程度上方便了人们的出行,但随之而来带来了对交通状态及时感知的困难,如道路状况的提前预警,越来越多的车辆带来的拥堵问题的预测等。随着计算机技术的发展,和交通领域结合产生的智慧交通系统(ITS)为我们提供了越来越多解决道路状态问题的方案。智慧交通系统在实际运行过程中会产生多种数据,其中能够提供大量信息可供挖掘的是轨迹信息。如果能够对收集到的轨迹数据加以分析,并添加多种在数据收
三桨船船模自航试验时,由于三个螺旋桨之间会发生相互干扰,各螺旋桨的负荷及克服的阻力也不尽相同.本文对三桨船自航试验推进因子的分析方法进行了比较、分析;提出应首先按螺旋桨的有效推力来分配各桨克服的船的阻力,再进行推进因子分析的数据分析新方法.
学位
场景感知一直是计算机视觉领域里一个重要的研究热点,且随着任务逐渐精细化,其已从图像级感知进入到密像素级感知阶段,要求捕获每一个像素的标签信息。本文围绕密像素级感知中的两个重要子任务,即图像语义分割和单目深度估计,展开研究。前者回答了每一个像素“是什么”的问题,后者回答了该像素离拍摄源“有多远”的问题。现目前最先进的算法都是依赖于深度学习的方法,这些方法通过堆叠大量的卷积操作以达到提升模型精度的目的
近年来,我国城市轨道交通发展迅速,逐渐成为各大城市的主要客运方式,其运行过程中的安全性和可靠性也越来越受到重视。牵引供电系统为城市轨道交通列车的运行提供动力支撑,若供电区间发生短路故障则会造成停电,影响列车运行,因此如何在短时间内找到故障位置就显得尤为重要。另外,当前列车定位主要靠信号系统完成,当信号系统出现故障后,主要通过调度人员和列车司机的判断来维持列车运行,容易增加事故发生的风险,因此需要构
学位