【摘 要】
:
随着互联网的日益发展,多媒体内容呈现爆发式增长。为了让用户能够在海量多媒体数据中更加迅速、准确地找到他们需求的内容,针对多媒体内容的搜索技术受到越来越广泛的关注。
论文部分内容阅读
随着互联网的日益发展,多媒体内容呈现爆发式增长。为了让用户能够在海量多媒体数据中更加迅速、准确地找到他们需求的内容,针对多媒体内容的搜索技术受到越来越广泛的关注。视频-文本的跨模态搜索是多媒体搜索中针对视频和文本这两个模态的一个特定搜索任务。该任务旨在:给予一个文本查询对象搜索出对应的视频,或是给予一个视频查询对象搜索出对应的文本。其任务难点在于对视频和文本两种模态的时序信息的理解,以及如何构建视频和文本之间的跨模态匹配关系。本文从两个角度提出了两种基于深度学习的跨模态视频-文本的搜索方法:1.基于堆叠卷积深度编码网络的跨模态视频-文本搜索。现有的方法忽略了视频和文本数据中的长距离依赖关系,该方法提出了 一种堆叠多尺度扩张卷积模块来捕捉视频和文本数据中的短距离和长距离依赖关系。其中,多尺度扩张卷积通过使用多个不同的核大小和扩张尺寸的卷积来捕捉视频帧之间以及文本单词之间的短距离时序线索。通过堆叠这个卷积块,进一步捕捉时序线索之间的长距离关系。此外,该方法充分利用了强力的语言模型Transformer,通过预训练和微调两个阶段来获得更鲁棒的文本表示。2.基于记忆增强嵌入学习的跨模态视频-文本搜索。现有的方法在训练时只在小批量中寻找局部的负样本而忽略了全局的负样本,也未考虑搜索数据的一个特点:一个视频对应多个文本。针对以上问题,该方法提出使用记忆模型来辅助视频和文本的特征编码,设计了两种记忆单元:(1)跨模态记忆单元,它用来存储当前迭代之前的视频或文本的特征,以用于后续的全局负样本挖掘;(2)文本中心记忆单元,它用来存储同一视频多个文本的中心信息,通过这个中心来在多个文本中进行桥接。本文在MSR-VTT数据集、MSVD数据集、VATEX数据集上进行了大量视频-文本互检实验,来证明本文方法的有效性,搜索性能超过了前沿算法。
其他文献
文章界定了学生学习效能感的含义 :一是学生对自已学习能力和学习成绩的预期和主观判断 ;二是学生对教师与教育功能的看法与判断 ,指出在大力提倡学生作为学习主人的情况下 ,
随着微风的抚摸,鸟儿的一声“早安”,我懒洋洋地睁开了睡梦中的眼睛,抖了抖雪白的连衣裙,观望着世界。我,就是毛茸茸的蒲公英。
从1951年法国,联邦德国与荷兰,比利时,卢森堡,意大利一起组成欧洲煤钢共同,意味着欧洲这个大陆由自由分散走向联合统一。1968年欧洲关税同盟的设立实现了进一步的一体化。即
铁路车站作为铁路系统的“站、车、线”三大基本要素之一,对列车运行、指挥调度、旅客乘车安全等方面起到支撑和保障作用,其在铁路三大要素中处于基础且核心的地位。与以往研究多以铁路整体为研究对象的情况不同,本文以济南站为研究对象,从车站层面着手构建治安防控体系,更为深入和细致,以点带面,以此更好地为铁路整体治安防控以及区域治安防控提供保障。济南站既具有独特的区位功能、辖区范围、周边元素等自身特点,又具备既
<正>"砍头不要紧,只要主义真。杀了夏明翰,还有后来人。"这首人们耳熟能详的就义诗,字字带血、笔笔惊心。以诗观人,犹如见作者之凛凛威风、浩然正气。以诗传情,感受到的是作
美丽乡村是建设美丽中国的重要组成部分,是实施乡村振兴战略的重要一环,是实现农民增收、农业增效、农村发展的重要途径。为贯彻党中央建设美丽乡村的精神和工作要求,近年来各地方根据具体情况探索适宜的美丽乡村建设模式,并取得了显著的成就。邹城市作为山东省美丽乡村示范村建设试点县,自2013年开始,积极引导优化产业体系,发展休闲观光农业和乡村旅游等环境友好型产业,同时整治环境和保护农村资源,打造优美的村庄环境
世界是多模态的——信息往往同时存在于语言、声音、图像等多个模态当中。当前人工智能发展迅速,在自然语言处理(NLP)、自动语音识别(ASR)和计算机视觉(CV)各自领域都有重大突破,但这种单一领域的突破仍然与真实世界有着明显不同。为构建真正理解人类世界的人工智能,它需要有对多模态数据识别和响应的能力。近年来自然语言处理和计算机视觉两大领域不断碰撞和融合,衍生出很多跨模态研究课题,如图片检索和图片问答