基于注意力机制的视频时序动作检索研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ltiao9600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网、摄像设备、社交网络等技术的迅速普及,视频成为互联网用户之间的一种新的交流方式,用户可以随时随地发布和分享多媒体数据(包括文字、图像、音频等)。但是面对与日俱增的海量多媒体数据,如何高效且准确地检索到用户感兴趣的内容,往往是一项艰巨的任务。视频检索,即根据用户输入的关键词,在多媒体数据库中检索与查询关键词相关的视频,已经成为多媒体信息检索领域的研究热点。但是如果用户需要在一个未修剪的长视频中,定位感兴趣的视频片段或者相关事件,就需要提出新的方法和框架解决,视频时序动作检索应运而生。视频时序动作检索,即根据用户输入的查询句子,在视频中检索相关动作的起止时间。注意力机制能够从源序列数据中提取得到与目标相关的内容,被广泛应用在跨模态检索模型中提取文本或者图像模态中的相关特征,增强跨模态特征匹配,显著提升了模型的性能。因此,本文以注意力机制为基础进行视频时序动作检索的研究。本文的内容主要包括:
  (1)提出了一种基于语言-时序注意力机制的视频动作检索模型。该模型利用注意力机制,自适应地根据视频中的时序上下文信息来学习文本中每个单词的注意力权重,对复杂且多样的查询语言信息进行编码,在视频中准确定位与查询内容匹配的视频片段。
  (2)提出了一种基于空间信息和语言-时序的视频动作检索模型。该模型通过两个注意力分支网络,即空间注意力、语言-时序注意力,同时关注视频、文本中的关键信息,然后对视频段的全局特征、局部特征以及文本特征进行联合建模,通过跨模态时刻回归定位网络去预测事件发生的起止时间。
  (3)提出了一种基于多模态张量融合的视频动作检索模型。该模型引入了一种张量融合模块,将视觉上下文时序特征与文本特征平均池化后,再通过张量融合网络,同时捕捉多模态数据的单模态信息以及模态交互信息,促进多模态特征间的数据融合。
  本文在TACoS,Charades-STA和DiDeMo三个公开数据集上进行实验验证,其中语言-时序注意力模型的准确率相比于早期的经典工作CTRL提升了0.24%~2.49%;空间与语言-时序注意力模型相比于语言-时序注意力模型提升了0.73%~2.67%;引入张量融合网络后,模型提升0.3%~2.26%。
其他文献
场景感知是计算机科学、智能科学和机器人学等学科关注的重要任务之一,在无人驾驶、人机交互、卫星遥感等领域都具有广泛的应用价值。语义分割旨在从像素层面上划分场景的具体类别,然后对不同类别赋予特定的语义。由于具有语义丰富、定位精准和效果直观的特点,语义分割已成为场景感知任务的主要解决手段之一。然而,随着数据规模的扩大与场景复杂度的增加,当前面向复杂场景的语义分割方法仍存在计算低效、参数量大、实时性低等不足。从科学研究的发展趋势与用户的日常实际需求来看,如何在有限的存储与计算资源的条件下,利用语义分割技术精准、快
哈布斯堡家族的战败不仅标志着三十年战争的结束,也标志着地理大发现的落幕,但直到一个多世纪后,欧亚大陆上依然有着许多不为人知的秘境仙林,曾经让世人避之不及的恶龙居所阿尔卑斯也向世人张开了怀抱……  1741年,两位英国探险家误入了一个景色绝美的山谷,干年不化的洁白雪山,浑然一体的碧透蓝天,平衍旷荡的谷间草地,奔腾激扬的清冽河水……这里的牧民过着亘古未变的田园生活,远处巨大的冰山发出的轰鸣,仿佛述说着
期刊
互联网技术的普及使得人们的生活更加便利,但同时也带来不容忽视的安全隐患。拒绝服务(DoS)攻击具有规模大、危害强的特点,是当前互联网安全的巨大威胁。其变种之一的低速率拒绝服务(LDoS)攻击通过周期性地向目标服务器发送短时高速脉冲式攻击流来降低其服务质量。因此这类攻击还具有更低的平均攻击速率和更好的隐蔽性,现有的DoS攻击检测算法无法识别。目前已经存在的LDoS攻击检测算法也普遍存在检测速度慢、准确率不高、误报率高和缺少自适应能力等问题。
  LDoS攻击通常利用TCP自适应机制的漏洞来发起攻击,因
夜晚,小小熊躺在床上,翻过来,滚过去,怎么都睡不着。  是外面刮风下雨、电闪雷鸣,小小熊吓得不敢睡吗?才不是呢!今晚特别美好,云朵静静的,月亮静静的,大树和小鸟静静的,草丛和虫子也静静的。  是屋子里黑咕隆咚,小小熊有点儿害怕吗?才不是呢!卧室里点着灯,客厅里点着灯,厨房里点着灯,就连冰箱里也点着小小的灯。  哎呀,小小熊忘记关冰箱门了。  让我们瞧瞧,冰箱里有什么?哦,有一块蜂蜜蛋糕、两块蓝莓饼
期刊
网络流量数据在各类网络工程中扮演了至关重要的角色,我们通常使用二维矩阵或者更高维度的张量对这类数据进行记录。受限于网络数据的监测和传输代价等客观因素,我们所构建的数据模型往往是不完整的。张量填充就是用来解决这样的问题,它将数据建模成张量,并利用观测到的小部分数据对张量中的缺失数据进行填充进而得到一个完整张量。目前,张量填充已经广泛应用于容量规划,负载均衡等网络工程当中。传统张量填充算法对于遵循正态分布的数据具有良好的填充效果,但对实际应用中呈现尖峰厚尾分布特性的网络监控数据作用效果不佳,实验表明,在使用传
现今网络技术飞速发展,信息感知已无处不在使人们的生活越来越智能化。但随着数据量的与日俱增,人们在享受定制化服务带来的便利的同时也承担着不小的安全风险。传统呈中心化的平台管理模式导致海量数据的存储与传输产生高昂的成本;而且收集的数据也不能得到完全的保护,在传输过程中容易受到恶意窃取、造成私密信息的泄露。因此在对等实体间建立信任,构建安全有效的信息共享机制极具价值。区块链技术去中心化、防篡改、高度透明的优势恰好为解决上述存在的问题提供了新的方法。本文针对当前数据共享中急需面对的细粒度访问控制和安全难题提出了一
电视剧《露营物语》中的男主角大木健人,没事就会去露营店闲转,再顺手买上一顶NEMO帐篷回家,真是让人羡慕不已。在日本有如此商品种类繁多,可以足足逛一天的露营店铺存在。  而本篇的主角TENT-MARK DESGNS便是来自日本大型连锁露营店铺WILD-1旗下的私有品牌。凭借超过30年的店铺经营经验,对产品品质的把控,再加上WILD-1店铺随处可见,可以亲手体验的商品展示,TENT MARK一躍成为
期刊
星期天,木木没老实待在家里写作业,撒了谎,下了楼。刚一出楼口,木木就闭上眼睛摸索着往前走。这是因为木木一看见奔驰的汽车、高耸的大厦就头晕眼花。  这下有热闹看啦。大街上出现一个摇摇晃晃、横冲直撞的“盲孩”!汽车、自行车、行人,都得规规矩矩地停下让路,还假装挺客气的样子,其实大家心里急得直嚷嚷——  “哪儿的孩子?胆子这么大,敢上街!”  “好像在哪儿见过,挺面熟的。”  ……  人们惊奇地看着盲孩
期刊
近年来,随着人工智能技术的快速发展,图像语义描述方法的性能得到了大幅的改进,尤其是编码器-解码器框架在该任务上的成功应用,解决了传统方法生成句子格式单一、准确度不高的缺点。在编码器-解码器框架中,解码器通过引入注意力机制来挖掘图像的局部区域特征,从而能够更加准确地预测对应的单词。然而,现有的基于注意力机制的图像语义描述方法在训练模型时同一时刻只能使用单个图像的局部信息,不利于视觉对象共性的学习。同时,当训练图像中存在视觉对象遮掩或视觉对象稀缺时,模型难以准确地预测出这些视觉对象。
  针对上述问题,
运行在单芯片多处理器(CMP)架构上不同核心的多个线程间会因为共享资源的争用而导致线程性能下降,其中共享L2Cache的争用是导致系统性能下降的重要原因。在拥有共享缓存的多核体系架构中,线程之间的相互干扰是不可预测的,随着核心数目的增加,我们不可能穷举所有可能的线程协同调度方案。因此,采用启发式的算法减少线程调度方案的搜索空间并获得可行的线程协同调度方案来优化系统性能是本文急需解决的问题之一。此外,由于新型非易失性存储器(NVM)具有高可靠性、低能耗等方面的优点,本文将NVM作为CMP架构的共享二级缓存。