【摘 要】
:
用自然语言描述视频的任务被称为视频描述,其研究结合了自然语言处理与计算机视觉领域的关键技术,研究成果推动了跨模态分析技术的发展。近年来,越来越多的研究者从事视频描述方向的研究。但是视频描述是一个复杂的任务,它不仅要识别视频中的不同目标以及它们之间的交互,还要用自然语言描述视频内容。当前研究的热点是基于序列学习的视频描述方法,这类方法首先利用卷积神经网络提取视频的特征,然后再用循环神经网络从视觉特征
论文部分内容阅读
用自然语言描述视频的任务被称为视频描述,其研究结合了自然语言处理与计算机视觉领域的关键技术,研究成果推动了跨模态分析技术的发展。近年来,越来越多的研究者从事视频描述方向的研究。但是视频描述是一个复杂的任务,它不仅要识别视频中的不同目标以及它们之间的交互,还要用自然语言描述视频内容。当前研究的热点是基于序列学习的视频描述方法,这类方法首先利用卷积神经网络提取视频的特征,然后再用循环神经网络从视觉特征生成句子描述。本文在基于序列学习的视频描述方法的基础上,进行了以下研究:(1)提出了基于深度视觉特征与语义属性指导的视频描述方法。大多数已有的视频描述方法只使用了视频的视觉信息,而忽视了对于视频描述非常重要的语义信息,因此,该方法在进行视频描述时不仅利用了视频的视觉信息,还利用了视频的语义信息作为指导。首先,该方法使用两种卷积网络分别提取视频单帧和连续帧的特征,并将这些特征求平均得到视频的视觉目标特征和动作特征。然后,从训练集的句子描述中获得三种类型的语义属性,并对每种类型的语义属性分别训练各自单独的语义属性预测器。最后,提出基于语义属性指导的长短时记忆网络,用语义属性指导视频描述生成。本文在MSVD数据集上的进行实验,其结果与主流的方法相比在多个指标上均有提升。(2)提出了结合注意力机制与记忆网络的视频描述方法。为了更充分的捕获视频中的目标与动作信息,该方法将注意力机制与记忆网络结合到基于语义属性指导的长短时记忆网络。首先,该方法提使用注意力机制去选择性地关注视频中最显著的视觉内容,以使模型自动地关注当前时刻视频中最显著的目标和动作。其次,该方法通过加入外部记忆网络提高长短时记忆网络中存储单元的记忆容量,记忆网络通过读取和写入操作与长短时记忆网络的内部状态相互作用。最后,将注意力机制的输出特征与从记忆网络读取的信息输入到基于语义属性指导的长短时记忆网络,用于生成视频描述。本文在MSVD数据集上进行了大量的实验,结果表明我们的方法优于主流的方法。
其他文献
体育人力资源是进行社会体育生产最基本、最重要的资源。在知识经济迅猛发展的时代,人力资源在体育经济快速增长中愈来愈突显其重要的作用。我国农村体育人力资源十分丰富,开
在国家全面部署和实施网络强国战略的关键时期,在江苏省各级政府的大力支持下,一个既承载厚重历史积淀,又肩负助力创新光荣使命的信息通信科技产业园区,正式获准建设。这座信
纳米材料具有独特的尺寸效应、晶面效应和协同效应,是一类很关键的催化材料,被广泛的应用于工业生产中,包括加氢工业、燃料电池、气体和电化学传感等领域。纳米粒子催化剂的
湿地氧化还原电位(Eh)和酸碱度(pH)空间分布特征是探讨湿地污染物存在形态、迁移和转化机理的基础。在湖南省西洞庭湖区澧水和沅水入湖口湿地分别布设2个监测断面共12个钻孔,
云时代的到来,数据中心网络的业务量不断扩大,给网络管理和运行造成了很大的负担,人们的生活愈发依赖于网络,对网络资源的需求越来越多,要求也越来越高。在数据中心网路中,大象流造成的网络链路拥塞与负载不均的问题日益严重,大象流的特点是在一段时间内负载较大,且携带了大量的数据流量。对流量调度而言,传统Equal-Cost Multi-Path(ECMP)调度算法的主要问题在于大象流在转发过程中,大量数据包
新城中心河是浦口中心城区生态系统和游憩空间的重要组成,在城市人居环境场所中发挥着重要作用。本文基于生态的研究视角,以新城中心河滨水景观设计为例,从布局设计、交通与
本文通过对黄河三角洲5个钻孔岩芯的沉积学观测、微古分析、14C测年,同时结合历史记录及遥感资料,分析了本区末次冰后期以来的沉积序列,重建了近10ka以来古环境演变过程,分析
在实施西部大开发战略的有利条件下,内蒙古自治区地方税务局将信息化工作作为实现税务管理现代化的重要手段。
中国传统音乐文化的发展是博大精深的,了解中国传统音乐文化是每个中国人有必要掌握的国民知识,增强和认同中国传统音乐文化的发展脉络及历史使命是中国人所必须要了解的。一
介绍了在南宁地铁1号线施工中首次使用自制的盾构始发密闭法装置,通过钢套筒提供平衡掌子面的水土压力,盾构在钢套筒内实现安全始发掘进,保证了盾构成功始发。