论文部分内容阅读
人体行为识别是计算机视觉中一个非常活跃的研究课题,在人机交互、基于内容的视频索引、视频监控以及机器人学等方面有着潜在的经济和社会价值,得到了广大科研工作者的高度关注。关键问题是如何从信息量巨大的视频图像中提取有效特征,即如何利用一种简单快速有效的模型来表示人体的不同行为,实现在复杂自然环境中的人体行为识别任务,并能同时满足实时性和鲁棒性的要求。本论文主要研究了基于视觉信息和基于视听信息的人体行为识别算法,在有效的视听特征提取和描述基础上,应用先进的智能算法对人体行为进行识别,完成的主要工作如下:首先,分析了人体行为识别问题的研究背景和意义,综述了目前基于视觉信息的人体行为识别问题的国内外研究现状以及存在的主要问题,简单介绍了本论文的主要内容和章节框架。第二,简单分析了目前已有的基于视觉信息的人体行为特征提取、描述方法,人体行为表示模型,并介绍了人体行为识别研究常用的动作数据集。第三,研究了背景简单、无遮挡情况下的人体行为识别问题,在分析比较各种视觉检测子和描述子基础上,利用3D Harris时空角点检测子提取KTH视频序列中三维角点,采用3D SIFT描述子对时空兴趣点进行描述生成特征向量,建立词包模型,提出利用在线极限学习机在线学习并分类人体的各种行为,在线极限学习机、极限学习机以及状态向量机的比较实验结果表明,在线极限学习机分类器具有出色的对人和场景的记忆功能,在线极限学习机的在线学习能力可有效提高识别率。第四,进一步研究了复杂动态背景、存在遮挡情况下的人体行为识别问题,研究了融合视频中的视觉、音频、运动信息,进行人体行为识别。对于视觉信息,利用Cuboid检测子提取视频中兴趣点块,对每个兴趣点块计算LBP-TOP描述子;对于运动信息,利用Tracklet描述子跟踪检测视频中人体运动信息并加以描述;对于音频信息,提取视频中14种频谱域和时间域的音频特征。然后,应用特征层融合、决策层融合和混合融合方法在HOHA数据集和YouTube数据集中对提取的三种特征进行融合识别复杂动态背景下人体行为。通过实验证明了融合三种不同的特征:视觉、运动和音频特征能在背景复杂动态环境下比较准确地识别人体各种行为。最后,提出了基于免疫多克隆优化算法的ELM分类器,利用免疫多克隆算法的抗体多样性提高全局搜索能力,在隐层神经元个数一定的情况下,搜索使得ELM分类器泛化性能最优的输入权重和偏置,实验结果验证了该改进的ELM分类器能够获得更高的分类精度。最后,对本论文所做工作进行总结,并提出了下一步的研究方向。