基于深度学习的视频内容识别技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:wuhao19881016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和4G网络技术的发展和普及,以及Facebook、Instagram和Snapchat等主流社交网络对视频业务的重视与推广,网络视频业务呈蓬勃发展趋势。然而,不断增长的视频数量和用户群体,以及丰富多样的视频内容,却给视频内容的监督和管理提出了巨大的挑战。得益于深度学习在智能识别方面取得的突破性进展,基于深度学习的视频内容识别技术逐渐成为视频内容识别和分析的主要技术,因此,本文以深度学习为基础,通过引入注意力机制,充分利用视频的时间特性,研究准确高效的视频内容识别技术。视频内容识别技术的关键在于视频特征的提取,而深度学习的优势在于其强大的特征提取能力,为了进一步研究基于深度学习的视频内容识别技术,论文的主要工作如下:首先,结合人类视觉感知方面的研究,以及LRCN模型在视频内容识别的优势,提出基于注意力机制的LRCN模型,在深度学习模型中模拟人脑的注意力特性,从全局考虑视频内容,使模型的注意力落在整个视频的有效区域,降低无关信息对视频内容识别的干扰。基于注意力机制的LRCN模型通过选择性的注意力权重,为与视频主题相关的区域分配较大的权重,无关的区域分配较小的权重,提取具有区分性的时间特征。然后,为充分利用视频的时间特性,采用BLSTM网络捕捉视频内容的上下文信息,提取更丰富的时间特征,提出基于BLSTM网络的LRCN模型。基于BLSTM网络的LRCN模型通过提取正向和反向的时间特征,充分利用视频的时间信息识别视频内容。最后,采用Tensorflow深度学习开源框架对基于注意力机制的LRCN模型和基于BLSTM网络的LRCN模型进行了仿真验证,实验数据采用HMDB-51和UCF-101视频内容识别数据集。实验表明,本文提出的基于注意力机制的LRCN模型和基于BLSTM网络的LRCN模型可以有效提高视频内容识别的准确率,并且基于BLSTM网络的LRCN模型在训练时能够快速收敛,提高模型训练效率,同时,本文还对基于注意力机制的LRCN模型的注意力权重进行了可视化,分析注意力权重对视频内容识别的影响。
其他文献
<正>目前中国建筑节能技术与节能工作正处在发展期,建筑能耗高,而能源利用率低。2009年我国社会总能耗中建筑能耗约占28%,2012年该数据已经超过30%,而且随着国民经济的发展,
文章认为,软件创业大赛是培养大学生创意开发软件的重要平台,是高等院校课堂教学的重要补充,是大学生学习软件开发知识,增强创新意识与创新能力的重要手段。为了推动大学生积
从宗教思想、生活环境、风俗习惯、道德观念等方面对英汉谚语文化上的差异做了一些比较,认为只有深入了解英语文化与汉文化的不同特点,才能深刻理解英汉谚语的涵义;只有深入
针对PCI接口使用的广泛性,分析了现阶段实现PCI接口各种方案的优缺点,提出了一种使用FPGA实现PCI接口的设计方案,首先详细论述了该设计的PCI接口信号,重点叙述了PCI接口功能
月经量少是指月经周期正常,月经量明显少于既往,或行经时间不足2d,甚或点滴即净者。近年来随着无痛人流术的普遍开展,月经量少发病率呈上升趋势,月经量少已成为临床常见病。
<正>(上课前,师生问好)师:同学们,最近我们学习了一组描绘自然、感悟自然的文章。今天我们学习一篇思考人与自然关系的文章。(多媒体展示专题教学内容:欣赏自然,感
随着社会经济的快速发展,人们生活水平的提高,单位用车和私家车的数量都在快速增大。文章简要分析了汽车机械故障产生的原因,并提出了相应防范措施。
目的探讨彩超和多层螺旋CT检查急性胰腺炎的诊断价值。方法急性胰腺炎86例患者分别采用彩超、CT进行检查,比较诊断结果符合情况。结果 86例患者经彩超、CT平扫及CT增强扫描后
试验用单氰胺溶液对阳光玫瑰葡萄的冬芽进行不同时间和浓度以及进行不同次数和浓度的喷施,研究单氰胺处理对阳光玫瑰葡萄萌芽的影响。结果表明,1%~2%单氰胺溶液在萌芽前1个月
国库直接支付制是我国财政管理机制改革的一种模式,是财政支出改革的重点。由于会计管理体制和监督制约机制的不健全、不完善等各种因素,国库管理工作中存在许多不容忽视的问