基于多尺度CNN特征的人体行为识别算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:albeewang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来图像、声音和文字等数据伴随着互联网信息技术的飞速发展呈现出爆炸式增长,与日俱增的数据也促进了人工智能和计算机视觉等领域的发展。人体行为识别技术是机器视觉领域的一个研究热点,其在视频检索、智能视频监控系统、人机交互、虚拟现实、智能家居和运动员辅助训练等领域扮演着越来越重要的角色。人体行为识别的主要工作是对视频中人物对象的行为进行识别和分析。虽然目前在人体行为识别领域的研究已取得一定成果,但是真实生活场景下的人体行为识别由于受到摄像头的移动、目标尺度变换、动态背景、视角和光照等因素的影响而具有很大的挑战性。传统的行为识别算法通常包括特征提取、视频序列特征编码和训练识别三个步骤。因此,提取视频中鲁棒的具有更高区分度的特征是提升人体行为识别效果的关键所在。  本文提出了一个新的人体行为特征构建方法来描述人的动作行为,这个方法是基于深度卷积神经网络特征和主题模型实现的。经实验验证,与传统的从卷积神经网络全连接层提取的特征图相比,从卷积神经网络卷积层提取的特征图不仅维度更低而且具有更高的区分度。因此,本文基于卷积神经网络特征图,使用了多尺度下采样策略来克服对象在尺度变化和形状变化上带来的干扰。而且,本文使用LatentDirichletAllocation(LDA)主题模型来刻画输入视频序列间的语义关系并为视频生成主题直方图。LDA模型使得最后每个视频序列的特征更加关注于视频帧之间的语义关联,而不只是空间位置信息。  此外,为了能够从时间域上寻找人体行为序列之间的关联性,我们提出了一个基于多尺度卷积神经网络和长短时记忆网络的人体行为识别方法。该方法在卷积网络层中构建多尺度特征表达,通过学习融合权重参数的方法,对不同尺度的特征进行融合,为视频帧构建一个更鲁棒的特征表达,并依次送入长短时记忆网络单元,最后通过一个分类层来实现人体行为的识别。  为了测试本文所提出的人体行为识别算法,我们在UCF-Sports和UCF-11两个十分具有挑战性的人体行为识别标准数据库上进行了实验。实验直接采用了在ImageNet大规模分类数据集上训练出来的VGG-16卷积神经网络模型提取视频帧的特征图和初始化网络参数。最后的实验结果验证了本文所提出的方法在人体行为识别任务中的有效性。
其他文献
在实验水池或水槽中模拟海上大波高波浪的运动现象,进而研究波浪对海洋工程与港口建筑物的作用,可为工程设计与科学实验提供可靠的依据,然而研制大功率不规则波造波机进行物
随着Internet技术的发展,多媒体会话现已成为研究焦点。多媒体会话很重要的一个方面就是进行视频会议。 在视频会议的各项技术中,信令技术无疑是其核心技术之一。现在的视频
人脸识别是生物特征识别的一个主要分支。与指纹识别、虹膜识别等其它生物特征识别技术相比,它不接触、无侵犯,拥有更为明显的优势。目前,由于国内外安全形势的迫切需要,人脸
在突发灾难来临时,救援的首要任务是救出尽量多的幸存者。救援机器人通过自身携带的传感器感知环境并协助搜救人员在灾难环境中进行受害人的搜救,同时探索周围环境并绘制地图。
语义Web是对当前Web架构的系统性重构和扩展,使Web支持结构性数据的发表、共享和关联,进一步提高Web的有序性、交互性和智能性。经过十余年的发展,语义Web的标准化建设取得了
分散控制系统(DCS)需要与外部系统进行通讯,而外部系统主要包括监控信息系统(SIS)和管理信息系统(MIS)。SIS、MIS一方面与DCS相连,一方面与Internet相连,病毒和恶性程序容易