适应开放环境的多模态学习技术

来源 :南京大学 | 被引量 : 1次 | 上传用户:huangshuhui1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多模态学习是数据挖掘、机器学习等相关领域的重要研究内容。相对于单模态学习,多模态学习旨在建立能处理和关联多种模态信息的模型,有效的多模态学习可获得更丰富的语义表示,进而提升单模态和多模态集成的性能。传统的多模态学习方法大多依赖于单模态自身信息相对充分、模态间信息一致的假设。但在实际应用中,多模态特征通常无法满足上述假设,尤其是在开放环境下受到特征噪声、缺失等因素的影响,使得多模态的数据收集、数据表示以及模型输出更为复杂,主要表现为:1)不同模态的收集代价不一致,存在模态代价差异大;2)不同模态的数据表示不一致,存在缺失模态和对应关系不明确的模态;3)不同模态的信息量不一致,存在模态有强弱。概括地说,存在“模态代价不一致”、“模态表示不一致”以及“模态强弱不一致”三个挑战性问题。论文针对这三个挑战性问题展开研究,提出了一系列完备多模态学习方法,并在公开及真实数据集上进行了验证。主要的研究工作如下:1.提出了一种考虑多模态代价不一致的序列化模态提取方法。开放环境中针对不均衡多模态数据,不同模态的收集代价也不尽相同。传统的多模态方法在训练和测试阶段均需要样本的全量模态信息,忽略了不同模态的收集开销问题。本文从样本可分性所需要的模态信息量要求出发,提出了一种新颖的端到端深度序列化模态提取与分类的决策方法DMP(Discriminative Modal Pursuit)。该方法对样本自适应的序列化模态提取进行研究,将模态提取问题转化为并行化类别标记预测和模态选择策略问题,其主要思路是以当前模态的预测精度作为下一模态的选择准则,并考虑收集代价最小化策略,以此保证预测性能的前提下减少模态提取的整体开销。2.提出了一种考虑多模态表示不一致的缺失模态聚类和分类学习方法。开放环境下,多模态的数据一致性很难保证,如隐私保护、收集丢包等因素都会造成样本部分模态的缺失,导致模态间数据的不一致。针对模态缺失问题,本文提出了一种半监督多模态聚类和分类的学习方法SLIM(Semi-supervised Learning with Incomplete Modalities)。该方法利用不同模态完整的有标记和未标记样本得到潜在一致的预测表示,并利用潜在一致的预测表示补全各模态特征构造的相似性矩阵,进而在统一的框架下为每个模态学习单独的分类器,同时进行未标记样本的聚类学习。进一步,考虑到SLIM未能有效利用模态缺失的数据,本文提出了一种基于核技术的半监督多模态聚类和分类学习方法SLIM-K(Kernel SLIM),该方法将各模态的相似性矩阵替换为核矩阵表示,并将其作为优化变量带入分类器学习中,以此有效地利用模态缺失的数据。3.提出一种考虑多模态表示不一致的复杂多模态多示例多标记消歧学习方法。除了模态缺失外,开放环境下模态间的对应关系不明确也是导致模态间表示不一致的关键因素。传统的模态关联信息需要人为标注,这无疑造成巨大的标注开销及关系噪声。针对这一问题,本文运用多示例学习的思想,利用不同模态数据包级别的一致表示解决样本级别的关系不明确问题,提出了一种端到端的深度多模态多示例多标记深度网络框架M3DN(Multi-modal Multi-instance Multi-label Deep Network)。该方法利用多示例包处理层得到不同模态包级别的一致预测,同时基于最优传输理论考虑多标记间的关联性,使模型有更好的学习能力。此外,本文进一步将有监督的 M3DN 扩展为半监督模型 M3DNS(Semi-Supervised M3DN),M3DNS将不同模态未标记样本包级别的预测概率作为软监督信息相互学习,以此在半监督框架下进一步提升模型的性能。4.提出了一种考虑多模态强弱不一致的强模态模型复用学习方法。在模态强弱不一致问题中,弱模态建立高性能的学习器需要较之于强模态更多的标记数据,这无疑增加了样本收集和标注的开销。于是,如何利用强模态辅助弱模态进行模型训练倍受关注,但传统的方法需要在训练阶段提供全量的强模态特征,而现实应用中因隐私保护、测试开销等因素,通常只能获得强模态的预训练模型。为此,本文提出了一种强模态模型复用学习FMR(Fixed Model Reuse)方法。该方法综合利用强模态学习器及标记信息,隐式地辅助弱模态学习有效的判别信息,提升弱模态学习器的性能。5.提出了一种考虑多模态强弱不一致的多模态动态加权学习方法。传统强弱模态辅助学习方法中,强弱模态的设定通常由领域先验知识确定,而开放环境下领域先验知识不易事先获得,且不同样本的模态强弱关系也是动态变化的。针对这一问题,本文提出了一种动态加权的多模态学习方法CMML(Comprehensive Multi-Modal Learning)。一方面,该方法利用额外的注意力网络自适应地为每一样本学习不同模态上的权重,并利用动态获得的权重进行加权预测。另一方面,该方法基于不同模态的预测提出差异性度量及鲁棒一致性度量,进而排除了不一致样本带来的干扰。
其他文献
木芙蓉是中国传统名花,由于其花开深秋"拒霜"、花名寓意"福荣",雅俗共赏,自古以来深受国人喜爱。文章首先从生命、文化、美学、空间等方面总结木芙蓉的基本特征,基于历史文献
问题链是历史课堂教学的重要手段,对于高效课堂的构建具有十分重要意义。为了更好地适应学科核心素养的要求,课堂问题链的设置要具有强烈的目标意识,搭建层次分明而具有足够
P2P网贷平台经历了问题平台集中暴发时期后,目前已进入合规检查并整改备案时期,增加了投资者在网贷平台进行投资理财的信心。加之现在越来越多的网贷平台广告充斥着人们的眼球,吸引了众多投资者跃跃欲试。然而,P2P网贷平台的投资者必然面临着投资项目的选择问题。虽然现在大多P2P网贷平台会先对借款者进行审核,再将审核通过的网贷项目在平台进行发布,但借款人违约的情况仍无法完全避免。因此,如何指导投资者识别出信
生产作业进度管控是船厂生产管理的核心。随着“两化融合”等国家性战略的推进,船舶制造企业运用信息化手段进行船厂作业进度管理已成为提高企业生产管理水平的必经之路。在保证船舶作业的成本和质量的前提下,结合信息化手段对船厂作业进度进行有效的管理变得的十分重要。为了提高船厂作业进度管理水平,本文将网络计划技术和挣值法集成应用于船厂作业进度管控。主要的研究内容和成果如下:(1)船厂作业进度管理的相关概念剖析。
同时定位与建图(SLAM)是机器人进行自主运动的关键技术,具有广泛的应用前景。随着机器人技术的飞速发展,如何获得更为精确的机器人位姿显得尤为重要。由于深度相机能够获取更
多变量时间序列通常来自于对现实世界中的动态系统的监测,其中每个维度代表通过一个(虚拟)传感器测量出的局部特征。考虑到一组动态系统的相似性与差异性,并同时对它们进行准
随着网络信息技术的发展,全球已经迈入了多媒体大数据时代。数据信息通常关联图像、文本、视频、音频等多种模态形式,多种模态数据分别以不同的展现形式刻画同一事物,表达相
离子液体(Ionic Liquids,ILs)指完全由阴阳离子组成的,熔点在100℃以下的离子化合物。ILs具有独特的物理化学性质,包括良好的热稳定性、蒸气压低、液态范围宽、电化学窗口宽和良好的导电性等。质子化离子液体(Protic Ionic Liquids,PILs)和非质子化离子液体(Aprotic Ionic Liquids,AILs)是离子液体的两大分支。PILs结构中具有质子的给体和受
随着我国客运列车运行速度的不断提高和载客量的不断增大,车体结构的耐碰撞性能受到了广泛的关注,而在车体结构设计时采用合适的碰撞能量管理(CEM)策略是改善车体结构耐碰撞性能的主要措施。因此,为了进一步改进轨道车辆车体耐碰撞性能,本文基于美国AAR S-034和APTA SS-C标准要求,采用非线性有限元法,研究了某市域列车的CEM策略,提出了一种吸能过程有序可控的CEM系统,并对车体结构变形控制方法
图像是人类获取信息的重要来源。随着传感技术的迅猛发展,图像的形态呈现多元化,如应用在刑侦追捕等领域的法医画像;应用在放射医学等领域的核磁共振图像;应用在门禁系统等安