多模态知识表示学习研究及应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:senfa88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多模态知识表示学习旨在从多模态数据中学习到关于其中数据、信息或知识的低维稠密向量形式的特征表示,作为近年来人工智能研究的热点问题之一,在多模态语义检索、视觉问答(VQA)、多模态情感分析等智能场景中具有重要应用价值。虽然多模态数据能为许多任务提供比单模态数据更多和更有用的特征信息,但如何从多模态数据获得有效的表示学习结果一直是多模态知识表示学习研究的核心问题。本文首先提出了一种基于门控层级融合的多模态知识表示学习模型,该模型能够细粒度地从多个模态的数据中学习关联和互补的信息,并缓解由于数据异构性带来的噪声问题;接着,提出了基于该多模态知识表示学习模型的实体链接方法,该方法能从多种模态数据中抽取指称的消岐特征;然后,构建了一个大规模多模态实体链接数据集对多模态知识表示学习方法进行评估;最后,在多模态实体链接任务的实验中验证所提模型和方法的有效性。本文的主要工作具体包括:1.提出了一种基于门控层级融合的多模态知识表示学习模型GHMF:该模型通过多模态协同注意力机制和层级注意力机制细粒度地抽取各个模态之间的关联信息,消除模态之间的异构性,然后由门控特征融合自适应地评估每个模态特征的重要程度,将它们进行加权融合。相比现有基于以往使用多模态注意力、协同注意力的模型,GHMN构建了各模态间的相似度矩阵,通过该矩阵得出一个模态所有位置和另一个模态所有位置之间的关联;能方便地堆叠至高层来挖掘更高阶的多模态特征表示;通过协同注意力与门控机制,有效地减少了由多模态数据引入的噪声问题。2.提出了一种基于GHMF的多模态实体链接方法ELGH:该模型从多模态数据中挖掘对指称消岐有帮助的特征作为指称的特征表示,然后利用余弦相似度比较指称特征和实体特征,选择特征最相似的实体作为链接结果。实验结果表明,和其它实体链接方法相比,本文提出的方法从多模态数据中提取出更多对消岐有帮助的特征,在多模态实体链接任务的性能优于现有其它方法。3.构建了一个大规模多模态实体链接数据集WikiMNEL:本文从Wikipedia、Wikidata中抽取数据,构建了加入图像等多模态信息的实体链接数据集WikiMNEL,弥补了当下缺乏可供研究者使用的大规模多模态实体链接数据集问题。通过对WikiM-NEL进行深入分析,解释了仅利用文本信息难以解决多模态实体链接任务的原因,并探讨了每个模态数据在任务中起到的作用。
其他文献
类人机器人是智能机器人领域的研究热点,受到机器人学界的广泛关注。本课题针对Robo Cup类人足球机器人Kid Size项目,在东南大学SEU_Uni Robot团队历年研究成果基础上,优化设计和实现完整的类人机器人运动控制系统,以提升机器人运动性能。本文研究内容主要包括:搭建机器人的软硬件系统,采用两层控制器的控制架构,完成舵机执行器、传感器的选型,使用MCU作为机器人下层控制器,完成定时任务和
在传统多标记学习中,每个对象由单个特征向量构成的示例表示,学习系统的目标是构建由示例空间至标记空间幂空间的映射。一般而言,对象的特征表示对于学习系统的泛化性能有着重要影响。如何突破传统的单特征向量表示,提升多标记学习系统泛化性能,值得进一步深入研究。本文围绕多标记特征表示开展研究,主要做了如下两方面的工作:一方面,“类属特征(label-specific features)”表示通过为每个标记构造
零样本学习作为机器学习中的一项新的挑战,越来越多的研究者将注意力放在了这一项新的任务上。零样本学习指的是利用类别辅助信息,在没有对应类别训练样本的情况下,对该类别的样本做出正确预测的任务。零样本学习可以根据测试集中样本的类别分为传统零样本学习和广义零样本学习,也可以根据使用数据的不同,分为类别归纳示例归纳式、类别直推示例归纳式、类别直推示例直推式三种。在先前类别归纳示例归纳式的零样本学习研究中,对
图像内容理解是计算机视觉领域重要的研究目标。分割,尤以细粒度图像分割,是实现图像内容理解的一个重要途径。全景分割,作为细粒度图像分割任务中的一种,可以帮助计算机更全面的理解图像中每一类物体的位置、形状等信息,它的有效解决,将有助于自动驾驶、行为识别等多个问题的发展。本文主要着眼于神经网络建模、针对全景分割问题的计算机视觉方法研究。更具体来说,是通过对数字图像进行像素点级别的分类实现对图像中物体的识
随着社会与现代科技的发展,人们将面临着越来越多的数据,传统的机器学习方法计算开销大,通常难以应用到大规模数据的学习问题上。而当面对大规模学习问题时,在线学习往往是一种易于应用且高效的方法。现有的在线学习方法大致可分为线性模型和核化模型两类。其中,线性模型的计算开销小,所以计算速度快。但当面临复杂数据时,这类模型在精度上很可能表现不佳。后来有研究者引入核技巧(kernel trick),提出了核化模
多标记分类研究中,一个示例(由属性/特征向量表示)会关联多个类别标记,利用多标记数据可以构造一个从示例映射到类别标记集合的分类模型,这样的学习框架适用于多义性对象建模。传统的多标记分类任务中,通常假设实例对应的标记集合是完全准确的。然而,在某些复杂场景下(如网络图片标注),与示例关联的候选标记集合往往含有噪声,需要对含噪多标记分类问题进行研究。本文针对多标记分类中噪声标记问题与多标记分类中特征构造
两阶段学习算法是将一些传统机器学习算法由原始的一步解决问题的过程拆分为两个不同的学习阶段,而问题求解的本质保持不变的学习框架。最初,两阶段学习算法的引入是用来解决核Fisher判别分析(Kernel Fisher Discriminant Analysis,KFDA)在处理高维小样本数据时所面临的病态问题。具体地,两阶段核Fisher判别分析(Two-phase Kernel Fisher Dis
在标准偏标记学习框架下,每个对象由单个特征向量进行刻画,同时与多个候选标记相关联,其中仅有一个未知的真实标记。另一方面,在真实世界问题中对象的性质往往更为复杂,每个对象拥有多源的特征表示并且未知的真实标记也并非唯一。一般而言,有效的特征表示能显著提升学习系统的泛化能力,而偏标记特征表示任务由于标记的真实信息未知而具有较高挑战性。本文针对偏标记场景下的特征表示及融合展开研究,主要包括以下两方面工作:
医学图像配准是医学图像处理研究领域的一个重要任务和技术难点,对于图像融合、检测肿瘤生长等临床工作有重要意义。图像配准旨在寻找将一幅图像映射到另一幅图像的空间变换。传统的配准方法迭代优化每一对图像的目标函数求解空间变换,存在配准时间长、计算量大的问题。近年来,随着深度学习在医学图像研究领域的广泛应用,基于深度学习的图像配准成为极具前景的研究方向。基于深度学习的有监督配准方法虽然在配准速度与精度方面都
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关