【摘 要】
:
近年来由于多媒体时代的蓬勃发展,跨模态信息匹配受到广泛关注。作为一项重要的基础研究,它在很多跨模态领域的任务中都起着关键作用,比如跨模态检索问题、图像生成、文本生成、图像或视频问答等等。传统的匹配算法主要从统计分析的角度出发,学者们用典型相关分析、偏最小二乘法等数学算法分析不同模态数据之间的相关联程度。虽然理论上的可解释性比较强,但是这些方法并不能深入理解模态中的语义信息,使得传统的跨模态匹配方法
论文部分内容阅读
近年来由于多媒体时代的蓬勃发展,跨模态信息匹配受到广泛关注。作为一项重要的基础研究,它在很多跨模态领域的任务中都起着关键作用,比如跨模态检索问题、图像生成、文本生成、图像或视频问答等等。传统的匹配算法主要从统计分析的角度出发,学者们用典型相关分析、偏最小二乘法等数学算法分析不同模态数据之间的相关联程度。虽然理论上的可解释性比较强,但是这些方法并不能深入理解模态中的语义信息,使得传统的跨模态匹配方法有很大的局限性。最近研究人员发现,与传统数学建模方法相比,深度学习方法具有更多的有效性和延展性。其中,卷积神经网络能够从图片中提取出高水平多尺度的特征图,在图像处理领域体现出优越的性能;循环神经网络及其多种变体能够有效地对序列特征进行学习,深入理解其语义信息。在深度学习的基础上,如何更好地提取模态内容特征表示,以及如何对不同模态的语义特征进行比较,都是跨模态领域亟待解决的关键问题。目前很多算法都从图像区域和单词的角度入手,先计算局部相似度,再合成整体图像和文本的相似度。然而并不是所有的区域或单词对于整体匹配度的计算都同样重要,在语义表达中他们都有不同的重要性程度。为了解决这个问题,本文引入自我注意力机制和交叉注意力机制相结合,前者可以将局部信息与同一模态中的上下文相区分,学习其自我注意权重;后者用不同模态的数据信息互为上下文,以跨模态内容对齐为前提学习其交叉注意权重。另一方面,本文注意到文本信息的词频等统计特征对单词重要性也有很大影响,所以引入词频-逆文档频率方法(Term Frequency-Inverse Document Frequency,TF-IDF)作为文本特征的预处理手段,从统计的角度获取有关单词重要性的先验信息,使得整体模型的性能获得了很大提升。本文的算法在MSCOCO和Flickr30K两个数据集上进行了测试,并与最近的方法进行了定量和定性的比较。实验结果证明了算法的有效性,可以更好地挖掘模态中的重要内容,并和其他模态信息更为准确的匹配。
其他文献
肝脏疾病对于人类的健康是巨大的威胁,临床上对于这类疾病的诊断和治疗是十分依赖计算机辅助技术的。因此如何从CT图像中获取肝脏以及肝脏肿瘤的位置、大小等特征,是进行肝病诊断、手术规划、功能评估和治疗决策的重要前提。然而依靠专业人员进行纯手工分割是耗时费力的,另一方面,由于肝脏以及肿瘤在CT图像中表现出边缘模糊、低对比度和灰度不均等特性,完全依靠计算机进行自动分割也是较为困难的。因此,本研究针对肝脏和肝
本文主要研究的内容是使用FPGA测量无特征物体的移动速度。无征物体指从前到后物体的整个形状基本上没有发生改变,在无特征物体的选用方面,选择热轧钢作为处理对象。本文的设计方案是使用激光照射热轧钢表面形成散斑,通过匹配热轧钢表面散斑的移动位置来确定热轧钢的移动位置,从而进一步求出热轧钢在二维平面的移动速度。使用图像匹配的方式来对视频流当中两帧图像进行散斑的位置匹配,通过获取散斑移动位置来得出热轧钢的移
近年来,电流体喷射打印工艺在柔性显示、生物医学微器件、MEMS传感器和柔性电子封装等领域的应用日益广泛,使用电喷印工艺可突破挤出式打印工艺和喷墨打印工艺对于喷头内径及结构分辨率的限制,但射流的稳定性与打印的一致性需进一步提高。柔性电子器件中常用的高绝缘性聚合物衬底,在电喷打印过程中易积累残余电荷,对后续射流产生静电排斥力,影响打印的稳定性和可控性。本文模拟了不同喷针和打印参数条件下柔性衬底上的电射
近年来,随着数据种类的不断多样化,如何有效检索跨模态数据成为了人们关注的热点问题。由于基于哈希的跨模态检索方法具有低存储开销和高检索速度的特点,使得跨模态哈希成为了许多学者研究的重点。然而,现有的研究大多忽略了对于邻域邻近性保持和类别邻近性保持的探索。此外,随着数据的爆炸式增长,大量的新兴事物(不可见类数据)给传统的跨模态检索带来了巨大的挑战,大多数现有方法难以完成在数据零样本情况下的跨模态检索任
随着计算机技术的不断发展,网格模型逐渐运用于各个领域,包括影视动画,地理地图信息,虚拟现实,计算机视觉,计算机图形学,计算机辅助设计,有限元方法,计算几何等。工程领域中STL格式的三角网格文件常用于传输工程对象的三角网格模型,随着模型精度的提高,网格文件的数据量逐渐增大,数据量较大的三角网格文件不仅给计算机的存储、计算、传输带来了巨大的挑战,还一定程度上影响了模型的显示效率,给后续的模型处理带来困
随着城市化的快速发展,供水管网的数据量也越来越大,供水行业面临着巨大的工作压力。为了提高工作人员的工作效率与供水行业的服务水平,部分供水企业开始进行供水管网地理信息系统软件的开发,加强了对供水管网的管理,但仍然存在着诸多问题,比如无法实现数据的共享和实时更新、设备不便带到施工现场等问题。随着移动地理信息系统与智能手机的快速发展,本文基于Android平台设计了供水管网数据共享移动端APP,该软件能
隧道掘进机作为一种技术复杂、附加值高的系统化大型隧洞施工机械,其智能化运行依靠数据挖掘技术,借助数据挖掘技术分析隧道掘进机运行数据,对于提升隧道掘进机的运行、分析、维护水平具有重要意义。数据挖掘中的聚类研究对于隧道掘进机运行数据归组分类、运行状态分析十分重要,是数据分析的重要前提步骤。然而隧道掘进机时间序列数据存在维度高、参数之间关联性强的问题,传统数据挖掘方法难以有效应用,缺乏针对隧道掘进机运行
心血管疾病是世界疾病负担的首要原因,主动脉所受到的各项冲击与损耗在心血管中最为严重。因此,对主动脉疾病治疗的研究意义重大。人工血管植入手术是主动脉疾病治疗的最终方案。生物3D打印人工血管在主动脉植入领域具有巨大的发展潜力,但由于主动脉周边约束繁多,本身结构以及内部血流状况较为复杂,因此缺乏在生理层面考虑个体特异性需求的三维模型作为制造基础。人工血管的结构优化设计可以对其几何形态和机械性能加以改善。
金属3D打印是近些年发展起来的一项先进制造技术,理论上可以打印具有任意复杂空间结构的零件,已有模具厂商将金属3D打印技术应用于复杂模具零件的制造,来解决一些模具零件难以加工、加工周期长、成本高等问题。然而在实际生产中,打印过程中的热应力会导致零件的开裂,这严重影响了金属3D打印技术的应用。因此,本文针对3D打印420不锈钢模具零件出现的开裂问题展开研究。主要研究内容如下:(1)首先通过建立420不
铝合金作为工业制造中应用最多的有色金属材料,在金属3D打印发展初期就被众多学者研究,其中激光选区熔化(SLM)工艺3D打印出的AlSi10Mg铝合金零件综合性能良好,应用较为广泛。与传统制造工艺相比,SLM打印的AlSi10Mg铝合金零件基本力学性能更优,模型结构可以更加复杂,但也存在很多不足,如打印效率低、表面质量较差、尺寸精度偏低和后处理过程繁琐等,基于存在的问题,本文主要内容如下:概述单熔道