论文部分内容阅读
近年来图像、声音和文字等数据伴随着互联网信息技术的飞速发展呈现出爆炸式增长,与日俱增的数据也促进了人工智能和计算机视觉等领域的发展。人体行为识别技术是机器视觉领域的一个研究热点,其在视频检索、智能视频监控系统、人机交互、虚拟现实、智能家居和运动员辅助训练等领域扮演着越来越重要的角色。人体行为识别的主要工作是对视频中人物对象的行为进行识别和分析。虽然目前在人体行为识别领域的研究已取得一定成果,但是真实生活场景下的人体行为识别由于受到摄像头的移动、目标尺度变换、动态背景、视角和光照等因素的影响而具有很大的挑战性。传统的行为识别算法通常包括特征提取、视频序列特征编码和训练识别三个步骤。因此,提取视频中鲁棒的具有更高区分度的特征是提升人体行为识别效果的关键所在。 本文提出了一个新的人体行为特征构建方法来描述人的动作行为,这个方法是基于深度卷积神经网络特征和主题模型实现的。经实验验证,与传统的从卷积神经网络全连接层提取的特征图相比,从卷积神经网络卷积层提取的特征图不仅维度更低而且具有更高的区分度。因此,本文基于卷积神经网络特征图,使用了多尺度下采样策略来克服对象在尺度变化和形状变化上带来的干扰。而且,本文使用LatentDirichletAllocation(LDA)主题模型来刻画输入视频序列间的语义关系并为视频生成主题直方图。LDA模型使得最后每个视频序列的特征更加关注于视频帧之间的语义关联,而不只是空间位置信息。 此外,为了能够从时间域上寻找人体行为序列之间的关联性,我们提出了一个基于多尺度卷积神经网络和长短时记忆网络的人体行为识别方法。该方法在卷积网络层中构建多尺度特征表达,通过学习融合权重参数的方法,对不同尺度的特征进行融合,为视频帧构建一个更鲁棒的特征表达,并依次送入长短时记忆网络单元,最后通过一个分类层来实现人体行为的识别。 为了测试本文所提出的人体行为识别算法,我们在UCF-Sports和UCF-11两个十分具有挑战性的人体行为识别标准数据库上进行了实验。实验直接采用了在ImageNet大规模分类数据集上训练出来的VGG-16卷积神经网络模型提取视频帧的特征图和初始化网络参数。最后的实验结果验证了本文所提出的方法在人体行为识别任务中的有效性。