基于深度语义学习的跨模态事件检索

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:hedongxu2288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于互联网上诸如文档、图片、音频、视频等多模态数据的规模的急剧增长,跨模态检索这一课题吸引了越来越多的研究人员的注意。通常,不同模态的数据用于描述共同的事件或者主题。跨模态检索定义为:输入一种模态的数据作为查询,查询得到相关的另一种模态的数据。举例来说,用户输入一段新闻报道作为查询的输入,检索得到相关的图片或者视频。跨模态检索的应用范围十分宽广,包括:热点探测,个性化的推荐,搜索引擎等等。随着多模态数据的规模的不断增长,用户对感兴趣的信息进行高效的搜索开始变得困难。针对这一问题,研究人员提出了许多不同的解决方法。然而目前,大多数跨模态检索的技术,例如基于关键字的搜索,基于内容的搜索,在进行相似度搜索时的技术仅仅停留在单模态的层面。由于输入和得到的检索结果可以是不同的模态。其中的难点和挑战在于,如何度量不同模态的数据的内容相关度。本文的主要贡献为:1.本文将多媒体领域的跨模态检索以及社交媒体领域的事件检测两个课题相结合,提出了跨模态事件检索的课题。针对该课题,提出了一种学习深度语义空间的用于跨模态事件检索的方法。通过深度学习模型,提取图像和文本的语义特征,从而将异构的数据转换为同构的语义空间,在语义空间里,可以很方便地实现跨模态的检索。具体来说,对于图像数据,利用迁移学习的方法,采用经过ImageNet预训练的VGG网络,将来自ImageNet的先验知识迁移到目标数据集中。同时,通过最小化相同模态的源域数据以及目标域数据之间的最大均值差异,解决域矛盾的问题,使得迁移模型能够更好地匹配目标域中的图像数据的分布。对于文本数据,利用自然语言处理中提取文本特征的方法,将文本特征向量化之后,通过LSTM的非线性变换,转换为语义空间表示。最后,通过最小化正则化的语义损失,学习一个交互的深度语义空间模型,将异构的图像文本数据转换成同构的深度语义空间。在深度语义空间里,相关的图像文本对之间的余弦相似度得到了极大化,不相关的图像文本对之间的余弦相似度得到了极小化,可以直接用欧式距离,余弦距离等方法衡量向量之间的相似度。2.针对跨模态事件检索这一课题,本文收集了一个名为“Wiki-Flickr event dataset”的数据集。现有的跨模态检索数据集中,图像与文档是一一对应的。而在我们收集的数据集中,图像文本对是弱对齐的,不存在一一对应的关系。并且在该数据集的基础上,搭建了一个跨模态事件检索的系统。3.在公开的Pascal Sentences数据集和本文的Wiki-Flickr event数据集上进行的一系列实验表明,本文提出的基于深度语义空间的检索方法的性能,相比于传统的跨模态检索方法,有了很大的提升。相比于部分基于深度神经网络的方法,检索性能有了一定的提高。
其他文献
非低碳技术是相对于近些年兴起的低碳技术而言,主要代表为传统的石化等能源及其不断衍生的大量碳排放的使用技术。作为近代以来工业化发展中主要的能源方式,非低碳技术对社会
中等职业教育是我国教育体系重要组成部分,是建设人力资源强国的基础性工程。中等职业学校作为职业教育的中坚力量,拥有一支优秀精干的“双师型”教师队伍,不但能提高技能型人才的培养水平,而且对我国职业教育的发展有着重大意义。本文采用文献研究法、调查研究法等方法,以大连市7所中等职业学校为例,对“双师型”教师的数量、学历、职称等总体情况进行问卷调查,对“双师型”教师的专业发展情况进行研究,对“双师型”参加培
随着全球化竞争时代的到来,国内市场渐渐与国际市场接轨,从而衍生出更多的机会与挑战。我国在历史进程中被赋予生产大国和世界工厂的称号,可以反映出我国物料资源和生产劳动
<正>炎症与肿瘤发展的关系在过去的10年中是研究热点之一[1]。一些血液中炎性因子如中性粒细胞与淋巴细胞比值(NLR)、白细胞计数和C-反应蛋白(CRP)水平被认为与多种类型癌症
传统汽车由发动机、底盘、车身、电器等构成,而新能源汽车将发动机部分改为电机,利用控制器(ECU)控制电器。新能源汽车一般情况下是把电能转换为机械能,然后驱动汽车。本文介
泡沫保温材料属于无机多孔绿色节能建材,作为建筑外墙的保温层,不仅能起到较好的保温作用,而且原料来源广、价格低廉、绿色环保。虽然泡沫保温材料作为建筑外墙保温材料具有很多优点,但在生产中需掺加大量水泥,带来经济和环境压力。本论文针对目前泡沫保温材料固废掺量较低的问题,以铁尾矿、粉煤灰等固废为原料,硅酸盐水泥为胶凝材料,采用物理发泡的方法,通过添加膨胀聚苯乙烯(EPS)颗粒和SiO2气凝胶填料制备了具有
执行程序和审判程序都是民事诉讼程序的重要组成部分,两个程序之间相互衔接、相辅相成,两个程序作用的有效发挥使得当事人之间的纠纷得以解决、权利得以实现。生效法律文书确定了双方当事人的权利义务,而执行的完成与否则决定了执行依据所确定的权利义务能否实现。当事人处分权的行使贯穿了审判程序和执行程序的始终,对当事人处分权的尊重在民事执行和解中得到了充分体现,民事执行和解作为民事执行程序中的一项重要制度,扮演着
多径效应导致雷达回波信噪比衰减,通过分离、抑制多径信号,可以改善多径信号造成的性能下降问题。考虑多径信号中同样包含了目标的部分信息,若能提取并合理利用多径信息,则可以进一步提高雷达性能。时间反演(Time Reversal,TR)通过利用多径信号实现了能量的自适应空时聚焦,提高了回波信噪比,这一特性为解决多径环境下的目标检测问题提供一种新方法。论文围绕多径环境的目标检测及参数估计展开研究,建立了多
目的:本研究采用流式细胞仪检测外周血淋巴细胞中γ-H2AX的表达水平,建立一种快速、高通量检测淋巴细胞γ-H2AX含量的方法,并研究电离辐射对淋巴细胞γ-H2AX含量的影响,建立相应
介绍了数字经济研究的起源,并分别对数字经济在国内的研究现状和内蒙古自治区关于数字经济的研究现状作了综述,供相关学者进行相关研究时参考。