【摘 要】
:
随着生活中数据的量以及种类的增多,用户的检索需求呈现出由单模态到跨模态的变化趋势,跨模态图文检索任务成为研究的前沿和热点,即当用户输入一个模态(图像或句子)的数据作为查询时,需从另一个模态的数据中检索出最相似的样本。该任务的核心问题是如何更精准的表征图像和文本特征以及如何更有效的衡量图文之间的语义相似度。本文针对跨模态图文检索中的特征表征(对齐)和检索模型进行深入研究,提出一种基于特征增强的跨模态
论文部分内容阅读
随着生活中数据的量以及种类的增多,用户的检索需求呈现出由单模态到跨模态的变化趋势,跨模态图文检索任务成为研究的前沿和热点,即当用户输入一个模态(图像或句子)的数据作为查询时,需从另一个模态的数据中检索出最相似的样本。该任务的核心问题是如何更精准的表征图像和文本特征以及如何更有效的衡量图文之间的语义相似度。本文针对跨模态图文检索中的特征表征(对齐)和检索模型进行深入研究,提出一种基于特征增强的跨模态图文检索模型。该模型不仅可以精准地捕获图像和句子中的深度语义信息,还可以有效挖掘图像和文本中片段级别的对应关系,提高图文检索的准确率。本文主要研究内容和创新如下:1.针对当前图像表示中存在非语义信息会影响双模态特征对齐的问题,本文设计了一种图像特征处理模块,称为多头选择注意力模块,来获得更加精准的视觉特征信息。该模块首先通过多头自注意力机制赋予注意力层多个子空间表示,获得丰富的图像特征。接着使用空间注意力和通道注意力对多头自注意力机制输出特征中的冗余信息进行过滤,抑制其中无用的信息,如背景噪声等,让模型更关注于图像中的重要信息。实验结果表明,引入该模块有效增强了模型对极为相似图像之间的辨别能力,提高了模型Recall@1的值。2.针对较长句子级别的文本嵌入向量容易受到距离当前词嵌入向量较近的独有单词的影响而丢失中心词信息,生成偏离文本主题的句子特征的问题,本文设计了一种文本特征处理模块,称为关键词增强模块,来充分全面的学习文本特征。该模块通过Transformer Encoder对每个文本词嵌入向量做权重处理,更关注于文本的主题信息,然后由此对GRU生成的文本特征向量进行补充,最终获得融合深层主题信息的文本特征。实验结果表明,引入该模块后,可以显著提高检索模型的抗干扰性,当检索的数据量增大时,检索性能保持基本稳定。3.针对跨模态图像文本共同表示建模时因太过粗糙而导致难以有效挖掘不同模态的一致性部分的问题,本文设计了一种基于图数据结构的跨模态相关性匹配模块。首先使用图数据结构对图像和文本提取片段级别的表征,分别构建视觉图和文本图。接着为了进一步挖掘图像和文本中片段级别的对应关系,引入图匹配方法计算视觉图和文本图的相似度,实现对两种模态之间特征的精准匹配。实验结果表明,与本文基线模型的Recall@1相比,在数据集Flickr30K上,文本检索提高了5%,图像检索提高了5.1%。在MSCOCO上,文本检索提高了2.5%,图像检索提高了2.8%,证明了本文方法的有效性。
其他文献
穿编工艺是中国优秀传统工艺之一,将穿编课程引入幼儿园,不仅有助于培养幼儿专注力、审美能力、手眼协调能力等综合素质,更是对中国优秀传统文化的传承和弘扬。本文结合幼儿的学习方式和特点,从以材料为媒介,激发穿编兴趣;以游戏为抓手,渗透穿编技巧;以主题为线索,拓展穿编思路以及以穿编为载体,丰富课程内容等四个方面,尝试对幼儿园引入穿编课程进行探讨。
数学建模是用数学语言描述实际现象的过程,应用数学方法来解决现实生活中的各种实际问题时,建立数学模型是这个过程关键的一个步骤,但同时也是比较难做到的一步。而数学模型一般是将现实中的事物进行适当的数学简化,从而在某种层面上来逼近现实中的事物的抽象形式而存在。一般来说,数学模型按照建立模型的数学方法分类可以分为初等模型、几何模型、微分方程模型、数学规划模型等,而本文主要介绍微分方程中的几种经典疾病模型,
随着移动设备和计算机硬件的发展,多媒体数据有了前所未有的增长速度。在数量庞大的多媒体数据中,用户希望用一种模态的样本从其他模态中检索与之主题相关的样本。现有的多模态检索算法通常面临这样的问题:1)多模态数据异构,不同模态数据分布不同。2)语义抽象。在很多情况下,一个主题需要多种模态的数据来进行阐述和补充。例如,一条新闻通常不仅包含文字内容,还包含用来说明事件的图片或视频。为解决上述问题,本文在图卷
<正>他被列宁称为“俄国革命的镜子”,被罗曼·罗兰称为“照耀我们青春时代的最精纯的光彩”。他在初登文坛之时,就受到著名文学家屠格涅夫的赏识,但两人之间的关系异常复杂,他们的来往充满矛盾的情感。中年时,他推翻了自己创作过的所有作品,深深地陷入一种无法言说的恐惧感之中。晚年时,他带着旁人无法理解的精神困境,死在车站里。他就是列夫·托尔斯泰,俄国文学史上伟大的现实主义作家。
为了保障灵岩隧道的运营安全,实时掌握隧道结构的状态参数变化,通过采用自动化方式对其结构沉降、结构收敛、衬砌应变和裂缝发展四个方面进行安全监测。监测网点布置简单,可实时观测数据变化,有效评估隧道运营状况,研究成果可供类似工程参考借鉴。
基于信息化的发展,再加上科技的进步,我国开始迎来大数据时代,基于该背景,在财务会计工作中也开始引入大数据技术,有利于促进财会工作的变革,发挥着至关重要的作用。文章围绕大数据特征,对大数据背景下财会工作面临的问题进行了分析,在此基础上,还探讨了有关的变革对策。以期有效利用大数据技术优势,推动财务工作持续发展,促进财务会计转型,希望可以为相关人士提供借鉴。
人们在幼儿时期开始进入语言、智力的快速发展阶段,同时也是培养良好习惯的关键阶段。随着社会的进步,终身阅读的理念已经得到普遍认可。激发幼儿的阅读兴趣,通过阅读来提高幼儿的语言能力和思维能力,可以为其终身的成长发展奠定坚实的基础。本文将围绕幼儿阅读兴趣培养的相关问题展开分析探讨,希望能发挥借鉴参考价值。
近年来,英国实施的税收征管数字化试点改革建立了一个征纳双方能够实时在线互动的税收征管数字化服务平台。此项改革将彻底改变纳税申报和税款缴纳方式,使税务合规和管理成本更低,为纳税人提供更加便捷的服务。本文介绍了英国税收征管数字化试点的实践,对其改革效应进行了评价,并提出进一步深化我国税收征管改革的建议:建立数字税务账户,实现“以数治税”;拓展非接触式办税,实现“精细服务”;构建税企直连通道,实现“精准