【摘 要】
:
在互联网发达的现今社会,每时每刻都会有大量视频数据上传到移动设备和社交媒体上,视频数据的爆炸性增长已经成为这个时代的重要特征之一。面对如此庞大的视频数据,没有任何人,或者团体,能够完全浏览这些内容。如何处理和理解这些内容成为了亟待解决的问题,因此,视频描述这一任务逐渐吸引了专家学者的注意。在视频描述任务中存在两个主要的挑战:1)为了理解视频的内容,计算机必须可以理解视频中每一帧包含的信息和视频所包
论文部分内容阅读
在互联网发达的现今社会,每时每刻都会有大量视频数据上传到移动设备和社交媒体上,视频数据的爆炸性增长已经成为这个时代的重要特征之一。面对如此庞大的视频数据,没有任何人,或者团体,能够完全浏览这些内容。如何处理和理解这些内容成为了亟待解决的问题,因此,视频描述这一任务逐渐吸引了专家学者的注意。在视频描述任务中存在两个主要的挑战:1)为了理解视频的内容,计算机必须可以理解视频中每一帧包含的信息和视频所包含的帧之间的时序关系。视频包含丰富、复杂的信息,比如视频中会出现更多的目标、动作、交互等。此外,视频固有的时序动态特性反映了目标间的交互以及目标位置的演变。因此,让计算机充分理解视频所展示的各种信息是极其重要的一步。2)由计算机生成的句子应该与由人描述的语句保持一致,也就是说,生成的描述语句要同时做到语义正确和描述自然。语义正确是为了和视频内容保持高度一致,这是视频描述任务的最基本要求。描述自然是为了满足人的表述习惯,使得生成的描述语句拥有更好的可读性。我们提出了一种新的基于对抗增强学习的视频描述方法(VIdeo CapTiOning model with adveRsarial reinforcement training policy),简称为 VIC-TOR,借用生成对抗网络能构造与真实数据分布相近的优势,生成语义正确且自然的描述语句。基于简单生成对抗网络的框架,设计生成器、判别器和训练策略。生成器沿用编码器-解码器框架生成描述语句。其中,编码器利用C N N+RN N结构提取视频的抽象特征。解码器充分利用句子的局部和全局信息,生成信息全面的描述语句。除此之外,为了增强生成的语句和原始视频之间的语义相关性,我们进一步将解码器的输出重构成视频特征序列。以这种方式,视觉和文本模态之间的鸿沟可以进一步弥合。判别器的目的是为了判别描述语句究竟是来自合成的数据还是真实标注的数据,以及为生成的描述语句中每一个单词评分。训练方式上,对抗增强策略增强了模型生成结果的流畅度和自然性。论文的主要贡献总结如下:·针对视频字幕任务,提出了一种具有对抗策略的描述生成-鉴别框架。它能够探索更多的信息,并进一步桥接视觉模态和文本模态之间的鸿沟。此外,对抗增强训练策略使得生成的描述在语义上更加正确,在语言上更加自然。·设计了一个由两层堆叠RNN组成的解码器。第一层RNN侧重于局部的单词级语言信息,第二层RNN侧重于全局的序列级语言信息。换句话说,解码器能够对局部和全局句子信息进行建模。·在通用基准数据集(MSVD、MSR-VTT和Charades)上的实验结果表明,该方法在视频描述任务中具有较好的性能,表现优于当前的一些其他视频描述方法。
其他文献
锡-锌(Sn-Zn)系无铅焊料因其力学性能优异、熔点接近传统的Sn-37Pb共晶焊料、可兼容现有工艺设备、资源丰富以及成本低廉等优点,具有良好的应用前景,但其润湿性、抗氧化性及耐蚀性较差,需要通过合金化来进行改善。传统“试错法”耗时耗力,无法满足工业的快速发展的需求,故急需新的材料研发模式来快速进行合金化成分筛选,以加快Sn-Zn焊料合金化的研发速度。本文以Sn-9Zn共晶合金为基础,采用双靶磁控
[目的]了解我国144家三级公立医院医护人员自评健康的现状及其影响因素,为制定改善医护人员健康状况的策略和措施提供依据。[方法]2019年3月18日至4月9日,第四次“进一步改善医疗服务行动计划”第三方评估(“第三方评估”)项目组在全国31个省(自治区、直辖市)和新疆生产建设兵团的144家三级公立医院中,开展问卷调查和评估。本研究以该评估项目所调查的144家样本医院中的临床医生和临床护士作为研究对
胜利油田目前处于特高含水开发阶段,开发难度越来越大,油田套损井数逐年增加,至2014年累计套损井11294口,严重影响油田生产,造成巨大经济损失,同时随着开发时间的增加,油层的
金属有机框架材料(MOFs)是由金属离子或金属簇与有机配体通过配位键结合而成的无机有机杂化材料,在质子传导和荧光探针等方面有着广阔的应用前景。本文利用苯胺-2,5-二磺酸单
《论语》中的“三年之丧”章记载了孔子与宰我之间的一场激烈的对话。作为一项古礼,“三年之丧”何以引起孔子与宰我如此巨大的矛盾?古今学者对此作了各种深入的讨论和研究。大体而言,这些研究可以分为丧制考察角度和义理分析角度。就义理分析角度来看,前人多将本章与孔子的仁礼观联系起来,或言仁或言礼或两者兼而有之,其基本思路是以仁、礼及其关系来解读和关注此章。实际上,考虑到本章的对话中所展现的各种重要的问题和细节
就目前人们越来越追求舒适清洁的环境来看,电池技术的发展已经成为所有新代清洁能源汽车行业发展的核心,燃油汽车已逐步被电动汽车、插电式混合动力汽车等新能源汽车取代。除
萝卜(Raphanus sativus L.)是十字花科一、二年生重要草本植物,萝卜的可食用部分肉质根是硫苷的重要来源。硫苷是含氮硫元素的重要次生代谢物质。脂肪族硫苷4-甲基亚磺酰丁基
湖泊水和水库水作为饮用水水源和备用水源,在我国城镇供水系统中担负着重要作用,常在冬季寒冷地区体现出低温低浊的特性,其絮凝过程具有粘滞剪切力大、颗粒物浓度低、颗粒尺寸小、亲水性强、聚集效率低等特点。项目组拥有知识产权的微涡流絮凝工艺在絮凝效率及出水水质等方面都优于传统絮凝技术,对低温低浊水的处理体现出一定的优势。本研究对絮凝工艺处理低温低浊水的影响因素进行了Fluent数值模拟分析,揭示了微涡流絮凝
尾矿是矿产资源经选矿后遗留下的一种固体废物,其常含有铅、锌、镉、铬等重金属,若处置不当,会对周边生态环境及人类健康造成危害。水泥窑协同处置是尾矿资源化利用的有效途径之一,在水泥窑协同处置尾矿过程中,窑内硫的富集会影响熟料的矿物组成及重金属的固化与分布。因此,本文通过ICP-OES、SEM-EDS、XRD Rietveld、结构性差异因子等分析方法,研究不同FeS掺量下Pb、Zn、Sn和Ti在熟料中
大学生是国家的栋梁,是国家未来发展的主力军。其身心的健康成长及如何培养一直为当代社会、教育所重视。加强大学生心理健康教育是高校在新的历史时期所面临的问题,促进大学