论文部分内容阅读
传统的数据检索系统中,查询项和关键字都来自同类型的媒体文件。而在移动互联网时代,媒体的多样性大大增加,单一媒体形式的检索系统难以满足实际需求。例如,抖音和快手这类短视频软件中提供的视频搜索功能,只能通过视频创作者提供的文本来构建检索关键字,其本质为文本数据库检索,无法与视频本身的语义信息建立关联并进行检索。基于如上场景,本文主要研究了视频场景下的跨模态检索,即视频、图像帧以及文本能够相互进行检索查询。跨模态研究为多研究方向的交叉领域,视频的动态信息、静态信息和文本信息的相互关联还存在许多待解决的问题,许多新的研究方法被提出,针对其中问题,本文提出对应方法进行解决。(1)视频相关的跨模态数据集收集成本高昂,并且现有数据集不足以支撑跨模态检索模型的训练。基于多任务学习的思想,本文对视频的分类任务和检索任务中所使用的相关数据集和相关模型进行改造和微调,将其中通用的知识迁移到跨模态检索任务中,提高模型的普适性。(2)由于不同模态的数据差别过大,对于视频检索和视频场景下的跨模态检索,建立不同模态相互拟合的共有子空间都是其关键问题。同样的,基于多任务学习的思想,本文提出利用领域自适应中的源域到目标域的知识迁移方法,将共有子空间中的不同模态看作是来自不同采集环境的近似语义数据集合,基于此条件进行模态间的知识迁移,从而提高多任务模态间的语义拟合程度。(3)视频中包含的信息较为繁杂,其中的动态信息和静态信息对于视频语义内容相关的任务至关重要,但同时都存在对特定任务产生干扰的次要信息,故关键信息的选取是视频相关任务的重要问题之一。针对该问题,本文提出基于注意力的无监督关键信息处理方法,应用到视频的关键静态帧和关键动态片段的选取中,进而提高模型的检索表现。(4)为提高检索速度,最终输出的特征向量都会进行哈希化处理,而哈希化必然导致信息的丢失,进而影响模型表现。为在哈希化过程中尽可能保留关键信息,本文提出基于字典学习的无监督关键信息处理方法,在保证检索速度的基础上尽可能提高模型的检索精度。在本文所设计的模型上进行实验,实验结果证明了本文所提出方法的有效性,并在基准测试集上取得了与最新研究方法相比具有竞争力的实验结果。