基于视频场景的跨模态检索技术

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:vito23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据检索系统中,查询项和关键字都来自同类型的媒体文件。而在移动互联网时代,媒体的多样性大大增加,单一媒体形式的检索系统难以满足实际需求。例如,抖音和快手这类短视频软件中提供的视频搜索功能,只能通过视频创作者提供的文本来构建检索关键字,其本质为文本数据库检索,无法与视频本身的语义信息建立关联并进行检索。基于如上场景,本文主要研究了视频场景下的跨模态检索,即视频、图像帧以及文本能够相互进行检索查询。跨模态研究为多研究方向的交叉领域,视频的动态信息、静态信息和文本信息的相互关联还存在许多待解决的问题,许多新的研究方法被提出,针对其中问题,本文提出对应方法进行解决。(1)视频相关的跨模态数据集收集成本高昂,并且现有数据集不足以支撑跨模态检索模型的训练。基于多任务学习的思想,本文对视频的分类任务和检索任务中所使用的相关数据集和相关模型进行改造和微调,将其中通用的知识迁移到跨模态检索任务中,提高模型的普适性。(2)由于不同模态的数据差别过大,对于视频检索和视频场景下的跨模态检索,建立不同模态相互拟合的共有子空间都是其关键问题。同样的,基于多任务学习的思想,本文提出利用领域自适应中的源域到目标域的知识迁移方法,将共有子空间中的不同模态看作是来自不同采集环境的近似语义数据集合,基于此条件进行模态间的知识迁移,从而提高多任务模态间的语义拟合程度。(3)视频中包含的信息较为繁杂,其中的动态信息和静态信息对于视频语义内容相关的任务至关重要,但同时都存在对特定任务产生干扰的次要信息,故关键信息的选取是视频相关任务的重要问题之一。针对该问题,本文提出基于注意力的无监督关键信息处理方法,应用到视频的关键静态帧和关键动态片段的选取中,进而提高模型的检索表现。(4)为提高检索速度,最终输出的特征向量都会进行哈希化处理,而哈希化必然导致信息的丢失,进而影响模型表现。为在哈希化过程中尽可能保留关键信息,本文提出基于字典学习的无监督关键信息处理方法,在保证检索速度的基础上尽可能提高模型的检索精度。在本文所设计的模型上进行实验,实验结果证明了本文所提出方法的有效性,并在基准测试集上取得了与最新研究方法相比具有竞争力的实验结果。
其他文献
采用空心线圈的保护用电子式电流互感器,积分器时间常数是影响其稳态与暂态准确度的关键因素。从模拟积分器传递函数入手,分析影响互感器采集系统准确度的多种因素,获取采用
介绍了用555定时器构成的单稳态触发器的工作原理,对其功能作了进一步探讨,在此基础上设计了一种具有实用价值的定时-非定时两用开关。
目的初步探讨硫化氢(H2S)对内毒素(LPS)所致急性肺损伤(ALI)大鼠肺组织细胞凋亡的影响。方法将140只大鼠,随机分为4组:盐水对照组、LPS组、LPS+硫氢化钠(NaHS)组、LPS+炔丙基甘氨酸(PPG)组
随着基础设施建设需求的增加,基建投资成为保持经济增长的重要推动力量,地方政府面对债务的财政压力,在建设市政工程时,必然会通过推进PPP模式来改革投融资体制、加快转变政
目的:观察ω-3多不饱和脂肪酸(ω-3PUFA)对腹部脓毒症患者临床治疗效果。方法选择腹部脓毒症患者53例,随机分为对照组(28例)和研究组(25例),对照组给予常规的全肠外营养(TPN),研究组除
《河南小曲》是由刘明源先生创作的一首优秀的二胡曲,是二胡乐曲中河南风格塑造最为典型的乐曲之一,乐曲塑造了朴实风趣的河南人的形象。本文旨在乐曲的风格韵昧溯源与润腔技巧探究,分析河南二胡音乐风格的艺术表现,总结了其演奏技巧的运用。
有计划、有目的的选题是高校学报编辑工作的基础,是组稿活动的重要依据.高校学报论文的选题,应以关注研究和解决现实社会问题,具有学科前沿性和高价值性,以本校学科建设或本
以"院士制度"在中国七十多年的发展为基线,筛选出其中319位中国物理学院士,通过对中国物理学院士的年龄结构、学位结构、性别比例和空间结构等进行定量分析,得出中国物理学院