【摘 要】
:
随着互联网的不断发展和终端设备性能的不断提升,数字媒体信息越来越丰富,并呈现模态多样化的特点,主要模态包括文本、图像、视频、音频等。为实现从如此复杂多样的信息中检索有用信息,跨模态检索作为一种可以在不同模态数据之间任意检索的方式,成为了近些年的研究热点。然而,由于跨模态数据存在“异构鸿沟”,当前跨模态检索任务存在跨模态数据语义不平衡、跨模态“相似”和“不相似”性难以度量、跨模态关联关系语义难以提取
论文部分内容阅读
随着互联网的不断发展和终端设备性能的不断提升,数字媒体信息越来越丰富,并呈现模态多样化的特点,主要模态包括文本、图像、视频、音频等。为实现从如此复杂多样的信息中检索有用信息,跨模态检索作为一种可以在不同模态数据之间任意检索的方式,成为了近些年的研究热点。然而,由于跨模态数据存在“异构鸿沟”,当前跨模态检索任务存在跨模态数据语义不平衡、跨模态“相似”和“不相似”性难以度量、跨模态关联关系语义难以提取、跨模态数据标注困难四个关键问题。本文重点针对四个关键问题,研究跨模态检索模型,主要研究工作包括:(1)针对跨模态数据中的语义不平衡性问题,本文提出一种基于生成对抗网络的非对称跨模态迁移学习方法。该方法利用更接近高级语义的文本数据指导图像数据的语义信息提取,并将网络的训练分为两个步骤。首先利用标注的文本数据训练文本映射网络,再使用对抗学习方式训练图像映射网络,并使用文本数据的语义嵌入特征对图像映射网络的训练进行约束,以平衡不同模态数据的语义信息。(2)为了充分利用不同样本之间的“相似”和“不相似”信息,本文提出基于图的多模态语义对齐方法。该方法在基于语义约束的生成对抗网络模型基础上,加入对偶训练机制和三元组语义约束,在减小模态差异的同时让不相关样本之间的距离尽量扩大。该方法首先利用带标签文本训练数据学习一个语义特征提取模型和分类器,再使用两个基于对抗学习的特征映射网络学习针对不同模态的特征映射网络。为了让生成的共同空间特征能有效按语义聚类,该方法定义了一种基于图的三元组约束,使共同空间特征按语义与文本语义特征对齐,并且促使语义相同的元素特征距离更近而语义不相同元素特征距离更远。(3)为了提取跨模态关联关系语义,本文提出一种基于约束图卷积网络的半监督跨模态检索方法。该方法设计了两个子模型,第一个子模型由特征映射网络和分类器构成,采用监督学习的方式使用标注数据学习一个伪共同空间和分类器。第二个子模型使用图卷积网络优化伪共同空间中的特征,使最终生成的共同空间特征按分类器预测的类别进行聚类。此外,该方法利用对抗学习训练图卷积网络,促使图卷积网络所生成的共同空间特征更具模态无关性。(4)为了充分提取模态内和模态间的关联关系语义信息,本文提出一种基于加权图结构语义约束网络的跨模态检索方法。该模型对不同模态数据的预生成特征按照标签信息构图并执行图卷积操作,从而得到带图结构语义信息的模态无关嵌入特征。再利用对偶生成对抗网络拟合不同模态数据在共同空间中的分布,并采用带图结构语义信息的嵌入特征作为约束信息指导最终映射网络的训练,使最终生成的共同空间特征具备模态无关性和语义一致性。(5)为进一步提高半监督跨模态检索的准确率,本文综合利用所提出的跨模态检索模型构建一种基于图结构语义约束的半监督跨模态检索方法。由于该方法集成了生成对抗网络、图卷积网络、半监督训练、基于图的三元组约束,其检索准确率得到了进一步提升,并在少量标注样本的情况下仍能达到较高的检索准确率。由于本文所提出的方法以预生成特征为输入数据,本文提出的方法可以适应多种跨模态情形下的跨模态检索,如文本与图像相互检索、文本与视频相互检索、图像与视频相互检索。为验证本文提出的方法的普适应,本文在三种模态数据(文本、图像、视频)上进行两两相互检索实验,实验结果说明了本文所提出的方法在多种模态情形跨模态检索任务上的有效性。
其他文献
复杂的电磁环境需要频谱感知系统具备对数量多、分布密集辐射源信号与信息的处理能力,而传统侦察处理方法在这样的环境下可能会出现多信号检测错误和测量误差较大的问题,难以适应该需求。针对这一问题,本文引入了随机有限集理论,能够对辐射源目标的出现、存活、消失、漏检和虚警等现象进行统一数学描述,获得了较好的目标跟踪性能。本文对辐射源侦察过程中所涉及的降频次数据交换、辐射源分类以及鲁棒辐射源跟踪等问题展开研究,
随着在线社交网络(Online Social Networks,OSNs)的出现,人们创造和分享信息的方式发生了变化。在OSNs上,信息传播变得比传统社交媒体更快、更广泛。了解信息如何通过OSNs传播,以及哪些因素推动了信息传播的成功,对现实世界的广泛应用有重大意义。本论文基于深度表示学习对信息传播进行分析。具体地,本论文首先研究信息级联的建模与预测,然后在此基础之上,研究基于传播分析的OSNs谣
遥感与作物生长模型作为区域产量估测的两类重要科学手段,已经得到了广泛应用和验证。数据同化技术融合了遥感的大面积信息获取能力和作物生长模型的机理过程特性优势,是提高区域估产精度的重要方法之一。然而,当前作物模型遥感同化中还存在不确定性量化不明确、高空间分辨率遥感数据同化效率偏低的问题,而基于贝叶斯理论的马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC)方法在依据少量的地
农业是国家发展的基础产业,外交是维护国家利益的重要手段,农业外交是农业和外交的良性互动,旨在以农业国际合作服务于国家整体外交战略,以国家外交战略的实施推进农业对外合作。农业外交是农学与外交学的交叉学科,依托各国的农业外交实践“开枝散叶”,塑造了以行为体数量、行为体地位、农产品流向等为中心的互动类型,呈现出外交任务的选择性、外交意图的模糊性、战略目标的长期性、外交实施的时效性、外交机制的多样性、外交
功率MOSFET和以其为核心的功率集成电路是电力电子系统实现电能转化、电压变换的关键,广泛用于消费、工业、汽车及航空航天、军事等重大需求,无论何种场景,功率MOSFET作为能源转换的“心脏”直接影响系统的整体性能,因此器件的结构设计至关重要。随着应用需求日益增长,在追求元胞尺寸、功率密度提升的同时,更高的设计容差、更优的动态特性成为设计中的关键,众多学者研究表明,元胞尺寸减小导致的设计窗口收缩为性
在数据爆炸的时代,云存储已经成为了一种特别流行的存储方式,它为用户提供了一种快捷、方便的数据管理方式。然而在云存储中,数据可能会面临着各种各样的安全威胁:(1)当访问云服务器获取云存储服务时,用户需要向云服务提供商认证自己的身份;现有的研究工作大多会遭受口令猜测攻击,无法实现云服务提供商安全高效地认证用户的身份。(2)当外包数据时,不同的用户可能会上传相同的数据到云服务器,为了确保数据的机密性,不
草地是最重要的可更新的自然资源之一,为人类生存和发展提供了多种的生态系统服务,草地管理的好坏不仅关系到畜牧业的可持续发展还关系着区域生态环境的功能。放牧和刈割对草地的生长具有非常重要的影响。羊草作为温带干旱半干旱地区的优势物种,是动物放牧和舍饲主要的食物来源,对畜牧业的发展具有重要的意义。因此,分析放牧和刈割对羊草生长的影响,对于科学管理和利用羊草草地资源具有重要的意义。本文以松嫩草地羊草为研究对
土壤水分是水文学中的一个关键参量,其对估算蒸发、蒸腾、侵蚀、径流、入渗和灌溉需水量具有重要意义。与站点观测相比,卫星遥感技术可以提供更大空间和时间上的土壤水分数据,然而卫星遥感仅能探测土壤表层几厘米的水分。根区土壤水分作为联系地表水与地下水的纽带,影响水文循环及植被耗水,深入了解其时空动态对于研究区域和全球尺度的气候变化及水资源管理至关重要。同时,高时空分辨率的根区土壤水分估算也能够为指导农业管理
多输入多输出(Multiple-Input Multiple-Output,MIMO)雷达作为一种新体制雷达,能够通过多个天线发射不同的信号,然后再在接收端通过多个天线接收并处理目标回波,以完成对目标的检测以及参数估计。相比于传统只能发射单一波形的相控阵雷达,MIMO雷达由于其波形多样性的特点,在发射信号设计以及接收信号处理方面具有更多的自由度,从而能够显著改善目标探测、参数估计以及干扰抑制等方面
近年来,随着并行计算和图像处理单元的高速发展,深度学习技术不断发展,并带来了从软件算法至硬件结构方面海量的资源。若将其应用于传统微波领域中,将具有广阔的应用前景。一方面,日趋加快的无线通信技术迭代周期要求更低廉的设计成本与更快速的设计过程,使得更快速、高效的设计微波器件和天线变得至关重要。另一方面,大容量的信息传输对于传统提升信道容量的方法提出了新的挑战,使得研究扩大信道容量新型方法成为了一大研究