【摘 要】
:
在信息技术快速发展的今天,每天都有大量的文字、图像、音频、视频等多模态数据发布和传输在信息网络上。这些数量庞大且纷杂的数据在带来丰富内容的同时,也给信息检索带来了极大的挑战,特别是不同模态数据间的相互检索问题。当前主流搜索引擎一般采用单模态方式进行信息检索,但往往只能获得认知对象的部分或局部特性,导致数据分析的局限性。由于多模态信息之间存在着一定的相关性,多模态信息混合处理有利于综合利用包含在数据
【出 处】
:
中国科学院大学(中国科学院西安光学精密机械研究所)
论文部分内容阅读
在信息技术快速发展的今天,每天都有大量的文字、图像、音频、视频等多模态数据发布和传输在信息网络上。这些数量庞大且纷杂的数据在带来丰富内容的同时,也给信息检索带来了极大的挑战,特别是不同模态数据间的相互检索问题。当前主流搜索引擎一般采用单模态方式进行信息检索,但往往只能获得认知对象的部分或局部特性,导致数据分析的局限性。由于多模态信息之间存在着一定的相关性,多模态信息混合处理有利于综合利用包含在数据中的各种信息,解决单模态信息处理准确性低、适应性差等局限性。因此,如何直接利用多模态数据丰富的信息内涵,构建多模态特征提取及其关联表示,实现多模态信息间的互检索,是当前应用上迫切需要解决的问题。在众多的多模态数据中,人类认识世界、获取信息的最主要的两种途径是“看”和“听”。随着语音技术的发展和语音输入设备的普及,语音在手机、电脑、家用电器、物联网等现代信息网络上得到了广泛的应用。语音-图像检索在人们日常生活中也具有较大的实用价值,如儿童早教、视力缺陷人群辅助、语音智能交互、不同语言之间无需双语注释的翻译等。语音-图像跨模态检索是一个极具研究价值和技术挑战的问题。因此,本文主要关注图像和声音两种常见且大量存在的模态数据。要实现语音和图像这两种常见媒体内容之间的跨模态检索,首先要把语音、图像分别用不同的特征向量表达出来,即把语音映射到语音特征空间、把图像映射到图像特征空间,但二者的特征空间并无直接联系。如何实现这两种特征空间异构数据的关联,是实现图像-语音跨模态互检索的关键。常规的机器学习方法难以实现,而近年来发展起来的深度学习方法为解决这一问题提供了可行的技术途径。与常规的机器学习方法不同,深度学习网络可以通过大量的“语音-图像样本对”的训练把二者特征向量空间映射到同一个多模态空间,使得不同特征可以在同一框架下进行运算,从而实现特征间的关联。根据上述思路,针对语音-图像跨模态检索问题,本文从三个方面展开研究,主要工作如下:1)多模态数据相似性度量。对于跨模态检索,不同的模态数据之间存在“异质性”鸿沟,如何度量不同模态数据之间的相似度是一个关键问题。本文提出了一种多模态数据相似性度量方法,利用神经网络对语音和图像的高层语义信息进行提取,将语音特征和图像特征融合,对融合后的多模态特征进行相似性度量,提升了跨模态检索的性能。2)关键信息甄别与冗余消除。语音描述中存在关键信息和冗余信息,如何识别语音中的关键信息并提取有效特征是语音图像跨模态检索的关键问题之一。本文提出了一种语音关键信息甄别与冗余消除方法,采用一维卷积神经网络及梅尔倒谱系数进行声音特征的提取,有效提升了跨模态检索的精度。3)图像-语音交叉检索建模。针对语音和图像两种模态数据,如何对这两种不同模态非线性相关关系进行建模是重点也是难点问题。本文提出了一种图像-语音交叉检索建模方法,利用深度神经网络拟合语音和图像的非线性关联关系,通过成对的语音-图像数据的训练,直接建立起语音和图像之间的关联模型,实现了两个模态的交叉检索。本文研究跨模态检索问题,在遥感图像-语音数据库和自然图像-语音数据库上都进行了实验。实验结果表明,本论文算法在Mirflickr 25k和MS COCO数据集上比传统算法的平均准确率提高了5.54%和3.71%。本文提出的语音-图像跨模态检索算法使得人机交互过程更加便利,甚至能实现情感交互,是一种高效、实用、快速的信息检索方向。
其他文献
嵌入式轮式机器人运用视觉传感器实现目标识别任务是目前热点研究之一,面对的核心问题是怎样设计一种目标识别方法,能够满足机器人在复杂、特定的应用场景中快速的、有效的完成目标识别任务,同时也能对轮式机器人在运动中执行指令更加及时、动作更加灵敏提供保障。本文把轮式足球机器人足球竞赛作为背景展开研究,针对特定应用场景中的足球、足球机器人等元素的辨别问题,主要完成了以下四方面工作内容:(1)本文设计了基于自主
量子信息学是以量子力学为基础的新兴学科,在未来的科技发展中有着重要的应用.量子纠缠是量子信息处理的基础资源之一.对量子纠缠的描述一直以来是人们探索的重要课题,更好地
大小知觉是知觉领域的重要分支,是对刺激物空间大小的主观反映,它会从许多方面影响人们的心理和行为。刺激物的颜色存在多重隐喻心理效应,如深度隐喻、冷暖隐喻、情绪隐喻等等,那么这些隐喻及其交互效应是否会对大小知觉产生影响呢?为探索刺激物的颜色、形状及主体情绪等因素对大小知觉的影响,研究设计包含了两个实验。实验一探索刺激物颜色对大小知觉的影响。实验采用单因素重复测量设计,自变量为刺激物颜色,分为8个水平:
在害虫、传染病甚至是肿瘤的控制与治疗过程中,往往基于害虫种群的数量、易感人群规模甚至是肿瘤的大小等决定是否采用综合害虫防治策略、传染病的预防接种以及肿瘤的放疗或
改革开放开启了中国与世界交流的大门,中国经济不断发展,国际形势推动中国提升国际竞争力,跨境电商崛起以及在企业自身寻求进步的驱动之下,对于品牌出海的提出与探究成为了产业发展的必然。本文在中国品牌出海现状的研究中,发现中国品牌实力与企业实力不匹配这一核心问题,并以此问题为原点,探究品牌出海的国际传播方式。因此,本文将研究对象锁定在2020年《Brand Z?中国全球化品牌50强》榜单中的15个电子品类
随着社会的不断发展,各方产业都与古往相比有着巨大的变化和进步。而旅游业更是现今社会最具有生产力且最具吸引力的热门产业之一。牧区旅游本身就是以畜牧业生产为主导的牧区旅游发展。但是并不代表以畜牧业生产为主导的牧区旅游业不存在任何问题。从牧区旅游业的发展来看,很多牧区旅游点都分布在中心城市的周边,而离中心城市较远的牧区,即便地域广阔、风景宜人,却未能成为发展起来的理由。而最开始发展旅游业的牧区,至今随以
甜叶菊为菊科甜菊属多年生草本植物,其叶片富含多种甜菊醇糖苷,是食品及药品工业的甜味原料,在国际上被誉为“世界第三健康糖源”。本研究以甜叶菊不定芽为材料,对甜叶菊进行无菌快繁体系的建立;在此基础上探讨秋水仙素与氟乐灵对甜叶菊多倍体诱导的影响,对变异植株进行倍性鉴定,并对获得的多倍体植株进行甜菊糖苷含量的测定;探讨LED光质对组培苗增殖、生理和生化指标的影响,以得到影响甜叶菊离体培养的最佳LED光质。
目前国内外企业生产经营过程中仍然经常发生生产安全事故,不仅给企业职工造成身体伤害、给企业带来经济损失,同时也给社会的健康发展带来不良影响。企业应如何全面实现安全生产长期目标,是亟需面对的重大课题,也是关系企业发展和生存的基本要求。论文通过对SD公司安全管理重要要素中的组织机构、制度建设、隐患排查治理、安全考核四个方面存在的问题进行分析,利用海因里希法则、安全生产管理体系等理论为指导,提出相应改善对
本文采用现代菌物分类技术对冬青科(Aquifoliaceae)植物生斑痣盘菌科(Rhytismataceae Chevall.)菌物进行系统而全面的研究。同时通过分子鉴定的方法,利用ITS rDNA和nLSU rDNA序列区构建系统发育树,分析部分斑痣盘菌科内属间、种间系统发育及其之间亲缘关系,并对其引发的病害的加以讨论与研究。以 Darker、Cannon&Minte(1983,1986
围绕光系统Ⅰ的循环电子传递(CET-PSI)是植物适应非生物胁迫的一个重要的自我保护机制。前人研究发现,叶绿体类囊体膜上的NAD(P)H脱氢酶(NDH)表达变化是造成C4植物和C3植物CE