基于语义先验约束的多媒体特征表示研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:king_hxr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体计算技术是实现具有类人多模态感知能力的机器人等高级人工智能终极目标的基石,其具有非常重要的学术意义和实际应用价值。解决多媒体计算问题的关键是对不同模态的数据构建强大的特征表示模型,即多媒体特征表示。传统的基于人工设计的特征表示模型对数据的中层结构和高层语义信息的表示能力有限,无法突破“语义鸿沟”。近年来兴起的深度学习模型借鉴了人类神经系统的一些特性,利用了机器学习技术,具有强大的非线性拟合能力,是最有希望解决多媒体数据特征表示问题的研究方向。然而目前绝大多数深度特征表示模型过于依赖大数据本身进行完全数据驱动的模型自动学习,忽略了人类通过数万年演化及生存经验所获得的对客观事物的规律进行总结的知识,很少有研究涉及到如何把人类的知识作为一种语义先验对深度特征表示模型的学习训练过程进行指导。本文主要探讨了多媒体计算任务中基于语义先验约束的图像、文本、视频等模态数据的深度特征表示研究,充分借鉴了人工智能领域前沿的一些研究成果,对通过语义先验约束提升多媒体特征表示的有效性开展了深入的研究。由于多媒体特征表示有效性的评估依赖于其具体应用的多媒体计算相关任务,本文的理论研究与应用研究紧密结合,理论研究服务于实际的应用场景(视觉关键点坐标定位、视频文字描述自动生成、多模态知识分析等)需要,应用研究引导着理论算法的研究方向。本文的主要成果和贡献包含以下几个方面:1、本文提出了一种基于几何信息先验的图像深度特征表示学习方法。该方法首先通过损失函数的形式对图像中具有的人类易感知的几何学信息进行建模,随后通过该损失函数具体约束指导图像特征表示模型的训练过程,所得到的特征表示可以被用来完成脸部关键点检测或非刚性物体的运动结构恢复等任务,在不增加现有模型复杂度的前提下显著提升性能。2、本文提出了一种基于属性先验的视频深度特征表示学习方法。该方法首先提出了一种有效的视频属性词典构建方法,随后提出了一种高效的视频中层特征表示方法可以将一段视频序列用单幅图像进行表示。基于上述步骤,本文成功的把复杂的视频属性表示学习问题转换为相对容易解决的图像多标签分类问题。最后本文通过改进序列-序列学习的编码网络结构将具有属性先验的视频深度特征表示引入到视频文字描述自动生成框架中,显著的提升了所生成文字语句的语义性。3、本文提出了一种基于跨模态知识关联先验的多模态深度特征表示学习方法。该方法可以直接从网络数据中学习到多模态数据的深度知识表示。本文首先提出了一个完整的解决方案可以自动的从网络异质非结构化多模态数据中挖掘大规模结构化多模态关系数据集。然后基于跨模态数据之间的知识关联语义先验,本文提出了一个双向增强的多模态知识表示学习深度模型方法,再结合跨模态交替训练优化的方法可以利用数据本身而非依赖具体任务对多模态数据进行语义空间统一的知识化表示。对大量的实验结果的定量与定性分析表明,通过对反映人类知识的语义先验进行建模并指导深度特征表示模型的训练可以显著提高多模态数据特征的表示能力,进而明显促进相关多媒体计算任务的发展。
其他文献
探究教学作为一种新的教学形式,实现了教学内容呈现方式、学生学习方式、教师教学方式和师生互动方式诸多方面的变革.对于数学的探究教学集中体现在培养学生探索能力上.怎样
目的:探讨大鼠脑缺血再灌注损伤后偏瘫复康颗粒的保护作用及其可能机制.方法:采用线栓法制备大鼠大脑中动脉缺血再灌注模型.观察组织病理学、脑组织含水量、血浆ET和CGRP含量
人工智能技术的飞速发展需要相关伦理问题的跟进研究。人工智能技术的伦理讨论不仅涉及到一般性的技术伦理问题,而且涉及到未来可能具有自主意识和行为能力的人工智能体所产