论文部分内容阅读
人体姿态估计和行为识别是计算机视觉的热门研究领域,在老年人看护、医疗康复、动漫游戏制作、运动医学研究、安防监控、工厂人机协同等方面有重要的应用价值。人体骨架坐标表示是一种人体运动的高级表示方式,相比彩色、深度图像能够有效克服复杂背景、光照、人体外貌变化的影响,因此人体姿态估计和基于人体骨架的行为识别受到越来越多的关注。微软推出的传感器Kinect使得价格低廉的深度相机人体姿态估计成为了可能,但是单一视角重构人体三维姿态在存在人体自遮挡和多人交互时不同人体部位相互遮挡的情况下会导致采集的骨骼数据质量差、骨骼关键点误检测等问题。另外,目前多数人体行为识别研究工作主要针对离线动作分类,分类器预测速度慢,无法满足实时应用需求。为了解决以上问题,本文搭建了一个分布式三维视觉传感器网络,使用ICF算法融合多个视角采集到的人体关节点坐标数据,利用one-versus-all算法训练支持向量机模型进行动作分类;在离线人体动作分类任务中,构建关节点集合距离特征、几何特征和运动特征,利用一维时间卷积网络从不同通道的特征表示中学习得到动作分类模型;在实时人体行为识别系统设计中,使用基于记忆组的采样方式,结合训练好的CNN分类器,在线识别正在发生的人体行为,同时部署为服务以供调用。具体研究内容和创新之处包括:1、搭建了一个分布式三维视觉传感器网络,解决了人体姿态估计中存在的遮挡等问题,提高了人体行为分类的精度。搭建的分布式三维视觉传感器网络包括四个Kinect传感器,覆盖大约180度的视角,使用ICF算法融合不同视角采集的人体关节点坐标数据,获得更高精度的人体姿态估计。使用动态时间规整算法对原始数据进行特征编码,基于傅里叶时间金字塔特征表示进行时间建模,最后使用线性支持向量机进行动作分类,在四个不同视角的原始数据和融合后的数据上比较分类精度,验证了提出算法的有效性。2、设计了一种基于特征表示驱动和一维时间卷积网络的动作分类模型,提高了离线动作分类准确度。为了更好的表示人体行为序列,使用关节点集合距离特征表示提供距离视角不变特性,使用几何特征表示提供同一帧中不同关节点之间的几何结构信息,使用不同尺度的运动特征提供不同帧之间关节点运动速率的信息。考虑到一维时间卷积网络在处理时间序列问题方面的优越性,使用一维时间卷积层对不同特征时间序列进行时间建模,融合得到的不同嵌入特征进行动作分类。在标准数据集JHMDB和UTKinect上进行了测试,结果表明提出的方法在分类准确度、预测速度等方面具有优势。3、使用基于记忆组的采样机制,结合训练好的CNN分类器和实时识别策略进行在线人体行为识别。考虑数据采集节点计算能力受限,同时为了提高在线行为识别算法的应用范围,提出使用基于Restful风格的客户端/服务器架构,将在线行为识别算法部署在远程高计算性能服务器上,作为通用服务以供调用。在标准数据集UTKinect和实验室环境采集的数据集上进行了测试,验证了算法的有效性。