论文部分内容阅读
有监督学习作为机器学习中最基本的任务之一,一直受到计算机视觉、自然语言处理、语音识别等多个研究领域的广泛关注。近年来随着深度学习技术的发展,有监督学习的性能更是出现了巨大的提升,尤其在对象识别领域,其性能已远远超过了人类的识别能力。然而有监督学习技术通常需要为每个目标类搜集数百个甚至上千个有标签的训练样本,这种对海量的有标签训练数据的需求严重阻碍了有监督学习的进一步发展。针对这一问题,目前机器学习领域存在一些以有标签训练数据量的多寡为主要特征的解决方案,其背后的动机在于使得机器学习系统,更加符合人类学习机制,从而逐步具备真正意义上的人工智能。在这一最具挑战性的目标实现过程中,零样本学习在其中扮演了关键的一环,其目的在于解决完全缺少有标签训练数据的学习任务(也称未知类),从而使得机器学习系统具备不断学习的能力。也因此,零样本学习正逐步成为多个研究领域的热点问题。基于上述研究背景,本文主要针对零样本学习中基础性的关键技术展开研究,并以视觉识别任务作为这些关键技术性能的验证实例,通过对这些关键技术的深度分析,有效解决了目前零样本学习面临的知识迁移、域偏移等问题,从而大幅度提高了零样本学习性能。本文的主要贡献如下:·首次在技术层面上对目前零样本学习的进展进行综述分析,比较了零样本学习与其他机器学习问题的异同之处,并形式化描述了零样本学习的基本技术路线,即通过共享的语义嵌入空间在已知类与未知类之间进行知识迁移,从而达到未知类识别的目的。在此基础上,本文将基本技术路线中的四大关键技术进行归纳总结,即视觉语义特征提取、语义嵌入空间构造、视觉-语义映射学习以及未知类标签预测。通过对这些关键技术的深度研究分析,我们发现目前零样本学习尚缺乏关于知识迁移机制的理论解释、域偏移问题、语义嵌入空间的流形缺陷等问题。理解进而解决这些问题对于我们设计新模型、新算法等具有十分重要的指导意义。·针对零样本学习技术中的知识迁移难题以及域偏移难题,提出了一种通用的基于关系知识迁移的归纳式零样本学习算法。方法从空间几何的角度揭示了数据流形结构中未知类与已知类之间的关联关系在知识迁移机制中的作用,并首次将关系知识由语义嵌入空间反向迁移至图片特征空间,以此生成未知类的虚拟数据,并恢复未知类在图片特征空间中缺失的流形结构。除了简单、通用以外,在多个真实数据集上的结果表明该方法能够获得优异的零样本学习性能。·针对语义嵌入空间中的流形缺陷问题,提出了一种基于流形对齐的直推式零样本学习算法。从本质上来说,在一定程度上,视觉-语义映射关键技术目的在于对齐图片特征空间的视觉流形与语义嵌入空间的语义流形,而一致的流形结构可以提高语义嵌入空间在未知类上的泛化能力。在模型中,通过利用测试数据的局部流形结构,迭代优化视觉-语义映射和更新语义嵌入空间,可以逐步达到流形对齐的目的,从而有效提高零样本学习性能。真实数据集上的实验结果表明,该方法在计算速度、可扩展性以及性能等方面具有很大优势。