论文部分内容阅读
随着互联网和4G网络技术的发展和普及,以及Facebook、Instagram和Snapchat等主流社交网络对视频业务的重视与推广,网络视频业务呈蓬勃发展趋势。然而,不断增长的视频数量和用户群体,以及丰富多样的视频内容,却给视频内容的监督和管理提出了巨大的挑战。得益于深度学习在智能识别方面取得的突破性进展,基于深度学习的视频内容识别技术逐渐成为视频内容识别和分析的主要技术,因此,本文以深度学习为基础,通过引入注意力机制,充分利用视频的时间特性,研究准确高效的视频内容识别技术。视频内容识别技术的关键在于视频特征的提取,而深度学习的优势在于其强大的特征提取能力,为了进一步研究基于深度学习的视频内容识别技术,论文的主要工作如下:首先,结合人类视觉感知方面的研究,以及LRCN模型在视频内容识别的优势,提出基于注意力机制的LRCN模型,在深度学习模型中模拟人脑的注意力特性,从全局考虑视频内容,使模型的注意力落在整个视频的有效区域,降低无关信息对视频内容识别的干扰。基于注意力机制的LRCN模型通过选择性的注意力权重,为与视频主题相关的区域分配较大的权重,无关的区域分配较小的权重,提取具有区分性的时间特征。然后,为充分利用视频的时间特性,采用BLSTM网络捕捉视频内容的上下文信息,提取更丰富的时间特征,提出基于BLSTM网络的LRCN模型。基于BLSTM网络的LRCN模型通过提取正向和反向的时间特征,充分利用视频的时间信息识别视频内容。最后,采用Tensorflow深度学习开源框架对基于注意力机制的LRCN模型和基于BLSTM网络的LRCN模型进行了仿真验证,实验数据采用HMDB-51和UCF-101视频内容识别数据集。实验表明,本文提出的基于注意力机制的LRCN模型和基于BLSTM网络的LRCN模型可以有效提高视频内容识别的准确率,并且基于BLSTM网络的LRCN模型在训练时能够快速收敛,提高模型训练效率,同时,本文还对基于注意力机制的LRCN模型的注意力权重进行了可视化,分析注意力权重对视频内容识别的影响。