基于深度学习序列模型的视频描述算法的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wik2pwerq32
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频描述是计算机视觉领域的一个研究热点,具有广泛的应用场景,包括视频检索,视频理解等领域。视频描述的定义是对一个视频片段用一个简短的英文句子进行描述。目前对该领域的研究依然存在诸多不足,本文的研究目的是从以下角度进行研究来提升视频描述算法生成句子的准确率。视频是包含不同模态信息的复杂载体,它的主要输入有视觉和音频信息。不同的模态信息能够捕捉到不同维度的特征形成互补。视觉信息涵盖了视频的大部分信息,音频信息能够对视觉信息进行有效增益。当前的主要研究依然聚焦在视觉模态领域,直观的说,将音频信息和视觉信息进行融合,能够提高视频描述生成的准确率。因此,如何高效的对视频包含的视觉信息进行特征编码以及如何有效的对不同模态的信息进行融合,是当前视频描述生成面临的挑战之一。近几年来,以神经网络为核心的深度学习在无数领域中取得了成功实践。具有自主学习能力的深度神经网络成为视频描述生成任务的首要选择。最新的研究实践和结论也证明了其优越性。本文针对视频描述中视觉信息层次模糊和模态融合等问题,对算法的整体框架和局部结构进行了改进。具体内容如下:1.日前基于视觉信息构造视频描述任务的研究忽略了视频结构信息这一层次特性。本文以提升对视觉信息中存在的场景切换信息的识别能力为切入点,提出了基于场景边缘检测编码器的视频描述生成网络。在编码阶段通过网络自适应学习是否到达场景边缘的切换点,能够赋予视觉特征编码更多的层次结构信息。从定性和定量的角度对网络模型的有效性进行了验证,并在两个公开数据集上取得了具有相当竞争力的结果。2.当前对视频描述任务的研究中都忽略了音频这一时序信息对于文本序列生成过程中的注意力机制的影响。本文以提升音频信息在文本注意力机制中的贡献比重为切入点,提出了基于音视频多模态注意力机制的视频描述网络,通过设计音频和视觉信息共同参与决策文本的生成过程,令音频信息能够对视觉信息起到补充作用。从定性和定量的角度分析了模型的有效性,并在公开数据集上取得了较好的结果。3.目前的视频描述研究中在视频信息的特征编码部分,均是针对某一层信息进行编码,忽视了视频包含多层不同粒度信息这一特性。本文以综合利用不同层次不同粒度的特征编码对视频进行表示作为切入点,提出了一种基于多层音视频跨模态注意力的视频描述算法模型。通过分别在音频和视频两端利用多层编码器进行编码,得到视频在不同模态不同层次的特征向量。再通过模型中的多重注意力机制,将来自不同层次的两种模态的共四种特征融合表示,提升了视频特征编码的表达能力。基于本模型的实验结果在公开数据集上各项评测指标上取得了一定的提升效果。
其他文献
双相不锈钢是指在不锈钢中既有奥氏体又有铁素体组织结构的一种钢,所以双相钢的性能同时具有奥氏体不锈钢和铁素体不锈钢的优点,因而被广泛地应用于石化、造纸和石油等工业领域。为探究2205双相不锈钢/Q345碳钢复合板热轧复合工艺,本文首先采用热模拟法对2205双相钢和Q345碳钢的高温热变形行为进行系统研究,系统的研究不同温度及应变速率对2205、Q345组织和性能的影响,探究了2205的微观组织演变规
随着社会的发展,人们对驾驶舒适性的要求不断提高,自动挡汽车市场占有率提高,使得内外齿形件的需求不断增加,内外齿形件旋压成形技术得到广泛应用。内外齿形件是典型的汽车离合器零件,成形时模具(芯模和旋轮)具有特定的齿形轮廓,在实际的生产过程中,芯模和旋轮出现磨损和局部折断失效,导致模具寿命降低,因此研究内外齿形件旋压成形时模具的受力分析及寿命预测,对于提高模具寿命具有重要意义。本文以某汽车离合器外毂内外
50Cr VA板簧钢由于自身优越的力学性能,被广泛用于重型专用自卸车,随着自卸车作业场合的工况的严酷化,对50Cr VA板簧钢的各项性能尤其疲劳寿命和强度的要求也越来越高。本课题在回火工艺前引入深冷处理工艺,综合考虑深冷处理中深冷温度、降温速率、保冷时间和深冷次数,通过设计正交试验,研究了各项因素对50Cr VA板簧钢的洛氏硬度、冲击韧性和耐磨性的影响。从中选出一组最优工艺组,在该组工艺条件下,对
半导体锗化物Mg_2Ge具有高热稳定性、低密度、优良的压缩性、丰富的可用性、无毒无污染等优点,且在热电领域和光电领域有很好的应用前景。本文首先从理论方面研究了本征Mg_2Ge和Al掺杂Mg_2Ge的电学和光学性质,然后从实验方面研究了不同衬底、不同Al掺杂浓度下的Mg_2Ge晶体结构和表面外貌。首先运用基于密度泛函理论(DFT)框架下的第一性原理赝势平面波方法,计算了本征Mg_2Ge的能带结构、态
随着中国经济的发展从高速向低速转移,中国的人口年龄结构也出现了新的特征。最突出的变化就是中国整个社会的老年人口不断增加,而少年人口的增长率不断下降,可以归纳为“少
虹膜识别技术是一种广泛应用于身份验证的生物特征识别技术,由于虹膜的唯一性、准确性和安全性,虹膜识别具有广阔的应用前景与科学研究价值。随着电子设备的发展,深度学习也在图像处理领域中广泛应用。从虹膜识别的核心技术来看,一个完整的虹膜识别系统包括获取虹膜图像、虹膜图像预处理、特征提取及特征匹配。本篇论文研究的重点为结合深度学习完成虹膜的特征提取及分类。虹膜特征提取分类的难点主要在于首先虹膜图像预处理困难
Mg_2Ge半导体材料是一种新型环保材料,Mg_2Ge材料具有高的塞贝克系数、高电导率和低热导率等特点,是高性能的中高温热电材料,作为锂离子电池阳极材料也有很大的应用价值。Mg_2Ge具有高硬度,耐腐蚀性和耐高温性等优点,是非常有潜力的金属基复合材料。本文对电阻式热蒸发方法和磁控溅射方法制备Mg_2Ge半导体薄膜的制备工艺进行了系统地研究,确定了相对适宜的热处理条件和溅射工艺参数。采用磁控溅射方法
特色小镇是集聚特色产业、生产生活生态空间相融合、不同于行政建制镇和产业园区的创新创业平台。具有主导功能突出、空间利用集约、机制灵活高效等特征和优势,是加快新型城镇化建设、实施乡村振兴战略、推动经济高质量发展的重要载体。黑龙江省积极推进特色小镇建设,省政府于2017年制定了加快特色小镇培育工作的指导意见,研究确定了7个特色小镇培育对象。从近年来的建设实际情况分析,黑龙江省特色小镇培育建设工作总体质量
采用磁控溅射及高真空退火工艺制备高锰硅/硅异质结,详细研究了溅射参数、退火温度对高锰硅薄膜结构和性质的影响,首先用XRD和SEM对高锰硅薄膜进行结构和表面形貌表征,优化制备参数,然后采用拉曼光谱、分光光度计、霍尔效应仪、半导体器件分析仪研究高锰硅/硅异质结的光电性质,具体内容和结果如下:1.研究了制备参数对高锰硅薄膜质量的影响,制备不同参数(退火温度、溅射气压、溅射功率、氩气流量)条件下的样品,结
快速增长的能源需求,不断消耗化石燃料储备,以及日益增长的环境问题,使得寻求可持续的、生态友好的能源资源变得至关重要。生物质通过催化热解制备生物油及全能化学品被视为潜在的替代能源,因此受到广泛关注。本文采用过量浸渍法负载镍和钼改性HZSM-5,采用XRD、BET对改性HZSM-5表征,利用热裂解-色谱质谱联用仪(Py-GC/MS)探究不同金属负载量(3%、6%)及复合金属改性HZSM-5在550°C