论文部分内容阅读
随着互联网技术的日益成熟,特别是移动互联网应用的推广以及智能手机、数码相机、监控摄像头等拍摄设备的普及,视频日益成为人们日常生产生活中不可或缺的媒体形式,视频业务呈现快速发展趋势。日益增长的视频数量,良莠不齐的视频内容无疑给视频的存储、分析、监管带来了前所未有的压力。深度学习在计算机视觉领域展现了巨大的优势,在视频描述、图片细粒度识别等一系列应用场景实现了传统方法难以企及的效果。因此本文采用一系列常用的深度学习网络模型,通过挖掘视频的时空融合特性,引入类比于人类视觉的注意力机制,改进基础深层LSTM模型,研究精准高效的视频行为分析技术。与传统行为识别技术不同的是,深度学习技术展现出强大的特征提取能力,能够针对任务学习到自适应、区分度高的特征。为了研究基于深度学习的视频行为分析技术,论文所做的工作总结如下:首先从视频的时空融合特性出发,分别提取视频的空间特征和时间特征,融合成为时空融合特征。然后借鉴人类视觉系统的注意力机制,提出基于注意力机制的时空融合模型。从视频片段整体出发,通过给视频片段中的关键帧分配更大的权重,让模型的注意力集中在视频片段的关键帧部分,减少视频内容中冗余信息对视频行为分析的干扰。然后为了提升基础深层LSTM网络模型的性能,提出了基于快进连接的时空融合模型和时域多尺度时空融合模型。通过优化深层LSTM网络中的信息传播和挖掘时域多尺度下视频内容的特征,进一步提高基础深层LSTM网络模型的识别性能。最后在UCF-101和HMDB-51数据集上,采用TensorFlow对基于注意力机制的时空融合模型、基于快进连接的时空融合模型、时域多尺度时空融合模型进行实验分析。实验结果表明,本文提出的基于注意力机制的时空融合模型、基于快进连接的时空融合模型、时域多尺度时空融合模型可以提高视频行为识别的准确率,同时对以上三种模型还分析了在具体某一类视频内容上的识别准确率,对基于注意力机制的时空融合模型分别选取了两段视频内容进行了注意力可视化分析。