机器多模态感知的相关研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:missiyoumiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多样的感官信息(如视觉、听觉、触觉等)可以帮助我们更好的感知周围环境,并实现更加准确、高效的任务表现,而具有多种传感设备的机器同样需要具有类似的能力,这是走向通用人工智能中至关重要的一环。传统多模态机器学习方法受限于表征学习、融合机制以及数据规模等因素,在典型的图像、声音以及文本等信息间的联合学习上存在较大不足,故仅可在实验场景下实现特定任务目标。当前,随着机器模型语义表征能力的日益提升和数据规模的不断增长,机器多模态感知的相关需求正呈现融合语义化、场景真实化、任务多样化等特点,这也带来了诸多新的重要难题并亟待解决,例如提出更有效的模态间融合机制、探究数据驱动下的新型学习范式、拓展机器多模态感知的真实场景应用等等。本论文以大脑多通道知觉为背景展开对机器多模态感知的相关研究,并取得了多项重要研究成果,具体如下:1.提出了基于多模态受限玻尔兹曼机的递归时序模型。该模型对现有概率深度网络进行了时序拓展,将每个时刻下玻尔兹曼机的共享隐层进行后向连接以建模整个多模态序列。以多模态序列联合概率最大化为目标,推导出该模型表达推理与参数学习的具体方法。由于不同时刻的玻尔兹曼机仅依据共享层连接进行信息传输,故其推理与学习过程相较于传统时序模型更为简单、有效。实验证实了该模型的时序建模有效性,并能一定程度上克服音频噪声干扰。2.提出了语义相似目标下的多模态学习理论。该理论利用多模态数据间具有语义相似性这一本质属性指导多模态网络模型的联合学习。通过促使不同模态的高层语义具有相似的激活分布可以降低单独模态的特异性影响,从而增强联合表达的有效性。经实验验证,该语义相似学习目标可用于多种多模态深度融合网络及相关任务,并相较于传统最大似然学习具有一致性提高。3.提出了多模态层级联合表达学习的密集融合方法。为兼具深度模型早期和中期融合策略的优点,该方法提出在不同模态网络间进行密集地层级融合,其高层联合表达不仅仅聚焦同层融合,而且也依赖于低层联合表达。通过分析,其所特有的多通路关联学习特征可促使其更有效的捕捉模态关联和进行跨模态监督学习。实验证实这种融合策略具有收敛速度快、训练误差低、精度高等显著特征。4.提出了跨图像-歌词的新型检索任务及相关方法。该检索任务为应现今多媒体数据展示需求所提出的。为实现该目标,提出了构建大规模图像-歌词关联数据集、利用关联网络模型对歌词序列和图像内容进行联合学习、采用标签注意机制缩小内容鸿沟等一系列方法。在构建的测试数据集上,该检索模型可提供与图像内容相适配的歌曲用于自动推荐,从而满足多媒体展示的现实需求。5.提出了复杂场景下基于深度多模态聚类的自监督视音学习方法。该方法提出对场景内多种视音成分进行有效地区分与关联以解决复杂场景下视音学习问题。通过对图像和声谱的高层语义特征图进行多子空间学习和像素级聚类,实现视音场景内实体的感知与发掘。继而借助于最大间隔损失下的自监督训练,完成不同模态实体间的精细化关联。实验发现,该方法训练的模型对单模态建模具有语义判别能力,并可用于多种视音理解相关任务。6.提出了盲人视听环境下的机器跨模态感知模型及其相关应用。受现有盲人视听感知设备的启发,介绍了模仿先天盲人和后天盲人的机器跨模态感知模型,即通过输入图像编码后的声音生成原有图像内容。通过在多种改进的视音编码方案上进行试验,发现机器仿真模型在一定程度上可以同人体被试的感知效果相当,并且具有高效、经济、便捷等优势。在未来,该模型可用于盲人视听感知设备的快速辅助研发,以进一步提升盲人的“视觉”感知能力。
其他文献
碲化镉量子点(CdTe quantum dots,CdTe QDs)因其合成简单、量子产率高、单色性好、量子限域效应明显等优点,被认为是发光效果最好的量子点,广泛应用在各行各业,并有良好的靶向药物输送和生物医学成像的应用前景。本论文主要围绕镉系量子点(CdTe QDs和CdTe@ZnS QDs)致小胶质细胞活化诱发海马区炎性反应的机制,并比较了 Ag2Se QDs诱发小鼠海马体炎性反应的机制。具体
旋转摩擦焊作为一种高效和环保的精密固相连接技术,具有广阔的应用前景,特别是需要高可靠性连接的航空航天领域,究其原因是缺乏对旋转摩擦焊相关成形基础理论及接头微观组织与力学性能分布的系统性研究,从而导致其缺乏相应的设计准则以及可靠的工艺规范带。基于此,本文以旋转摩擦焊实验为主要研究手段,以具有不同物性参数(高温屈服强度)的材料为研究对象,揭示接头成形过程中界面摩擦行为及其对工艺参量的响应行为,并在此基
感性概念既是马克思哲学的一个基础性概念,又是洞察马克思哲学革命的一个关键性概念。感性问题既是一个指涉哲学存在论、认识论和方法论的根本性问题,又是一个直指现实的个人的感性生活过程的现实性问题。由于种种原因,长期以来,人们对这一概念的理解存在着这样或那样的偏差。大体而言,这主要体现在以下三个方面:一是仅仅从认识论的视角来考察马克思的感性概念,这就深深地遮蔽了这一概念所蕴含的存在论和方法论意蕴;二是仅仅
用激光代替传统激发源的激光超声技术具有非接触激发、同时获得多种模态、激发声波频带宽等优点,在材料评估和缺陷检测领域具有重要应用。材料的评估检测是基于对材料内激发的声波幅值、波速等特性的准确掌握。不同介质中声波差异较大,增加了波形的分析难度。为了揭示激光超声在介质中的特性,本文采用理论分析和数值模拟相结合的手段,研究了不同结构的固体中声波传播和演化规律,对于模态特征明显声波优化激励方式实现波束调控,
在经济全球化的不断发展中,随着国际分工的浪潮,欧美发达国家为降低生产成本、获取全球竞争优势,不断地将非核心、非关键、低价值的生产环节向发展中国家转移。在此过程中,中国制造业凭借着资源优势、劳动力优势,以组装、代加工的方式开始加入到以欧美发达国家为主导的全球价值链中,由于中国制造业起步较晚,而且技术及装备较为落后,主要从事劳动密集型产业,如服装、原材料加工等领域,此时处于价值链的低端,获得很低的产品
农业科技示范园区是在特定的区域内,运用资金的集中投入,集农业高新技术成果“源头创新、中试展示(含休闲观光)、辐射推广”等多种功能于一体的现代农业示范基地。它是我国农业集约化生产和企业化经营的新型组织形式,是我国农业现代化建设新的表现形式和新的增长点,也是我国农业科技与农村经济紧密结合的重要切入点,成为我国高技术成果转化为现实生产力的重要载体。目前国内建立了许多不同规模和类型的农业科技示范园区。如何
基于燃气轮机的发电方式有诸多优势,而使用燃气轮机作为动力的舰船具有机动性好,隐蔽性强等优点。因此,燃气轮机受到国内外重视,但是其中的涡轮叶片制备技术限制燃气轮机的广泛应用,尤其是国内在这方面存在大的差距。这主要是因为受到燃气轮机叶片尺寸增大,材料中高温难熔元素的添加,以及更复杂冷却通道的设计等因素的影响,利用传统技术制备的燃气轮机叶片中雀斑等缺陷形成倾向增加。雀斑缺陷降低铸件高温力学性能,无法通过
炭/炭(C/C)复合材料具有优异的高温性能,尤其在高温惰性气体中可保持较高的力学性能,使其成为航空航天等领域结构功能一体化耐热防护部件的首选材料。然而,高温易氧化是限制其使用的主要技术瓶颈,抗氧化涂层技术是解决这一问题的有效技术手段之一。ZrSi2陶瓷可在500℃-900℃左右快速氧化形成致密阻氧层而成为抗氧化烧蚀涂层的备选材料。论文以提高C/C复合材料高温抗氧化烧蚀性能为目标,采用超音速等离子喷
随着大规模多智能体系统的涌现,分布式计算方法得到了越来越多的关注,这主要归功于分布式计算方法可以把一个复杂的计算任务分解成多个子任务,从而减轻传统集中式计算方法中中心节点的计算负担,进而大大提高完成复杂计算任务的效率。分布式优化作为分布式计算的一个重要部分,因其在机器学习、资源调配、传感器网络估计、拥塞控制等网络系统中的广泛应用而得到了深入研究。一般来说,现实中的优化问题都存在约束复杂的特点,而复
压电陶瓷能够实现机械能和电能的相互转化,从而被广泛地应用于换能器、传感器和驱动器等电子器件之中。目前,以Pb(Zr,Ti)O3为代表的传统铅基压电陶瓷因其性能优异而被大规模地商业化应用,但铅的毒性对环境和健康提出了严重的挑战。钙钛矿结构钛酸盐无铅压电陶瓷包括钛酸钡(Ba TiO3)和钛酸铋钠(Bi0.5Na0.5TiO3)具有相对较好的铁电与压电性能,被认为是有希望替代传统铅基压电陶瓷的候选材料。