论文部分内容阅读
随着机器学习的飞速发展,计算机视觉和语音识别等技术已经取得了显著的效果。但是随着人们生活水平的提升,人们已经不再满足于传统的机器学习中处理大量有标签数据的监督学习方法。人们希望机器能够更加的智能化,能够处理更加符合现实情况的多样化问题。一个更加现实的情况就是,每天都会有大量的新类别的物种出现,在新类别物种出现时,人们需要收集大量的带标签的该物种数据重新训练模型,才能让模型能够准确的识别该类别。但是对于新类别的物种人们可能无法获取大量的带标签的数据,或者需要耗费大量的资源才能获取该类别大量的带标签的数据。所以用传统的机器学习方法让机器来对新类别进行分类识别非常困难,同时需要耗费大量的人力物力。为解决这种让机器准确识别新类别物种的问题,零样本学习快速发展了起来。如何通过已有的先验知识来对未出现过的类别进行识别是零样本学习的研究热点问题。零样本学习可以看作是迁移学习的一个小分支,是迁移学习的一种,源域中包含大量的带标签的数据为已知类,目标域中的数据是没有标签的为未知类。源域中的已知类为训练样本,目标域中的未知类为测试样本,已知类和未知类的标签集是不相交的。在零样本学习中如何将已知类别中学习到的知识迁移到未知类别中帮助对未知类别的识别是零样本学习的重点问题。零样本学习采用语义空间作为连接已知类和未知类的中间桥梁,已知类和未知类共享语义空间实现知识的迁移。虽然零样本学习近些年发展迅速,但是仍然存在一些固有的问题,本文深入研究了现有零样本学习方法在图像分类上存在的问题,针对现有的问题提出了两种不同的零样本学习方法实现零样本图像分类。首先,在零样本学习的过程中,因为训练集和测试集的类别是不相交的,所以需要完成从已知类别到未知类别的知识迁移。但是由于已知类和未知类的类别差异可能很大,以及不同类别图像的分布不同,从而容易导致域偏移问题。同时直接学习图像视觉空间到语义空间的映射会导致在知识迁移过程中的信息损失问题。为解决零样本学习知识迁移过程中的信息损失以及域偏移的问题,本文提出了图像分类中基于子空间学习和重构的零样本学习方法。为了充分利用未知类别的信息,减少域偏移,该方法首先将语义空间中的已知类别和未知类别的关系迁移到视觉空间中,学习获得未知类别视觉特征原型。然后根据包含已知类别和未知类别在内的所有类别的视觉特征原型和语义特征,学习获得一个潜在的类别原型特征空间,在该潜在子空间中对齐视觉特征和语义特征,既能保持视觉空间下的可分辨性,又能保持语义空间下的类别间关系信息,同时在子空间的学习过程中利用重构的思想,减少信息损失。最后分类识别阶段,在不同的空间下根据最近邻算法对未知类别样本图像进行分类。其次,在零样本学习中,目前最常用的语义信息是人工标注的属性,但是在先前的大多数工作中,都假设各属性具有同等的重要性,实际情况则是各属性包含了不同的信息量,对图像分类的结果的影响也不同。在零样本学习中语义特征是由人工定义或者通过NLP技术提取的词向量特征,而图像的视觉特征则是由CNN网络提取,所以语义特征和视觉特征通常具有不同的分布特性,且两者特征维度相差较大,直接学习视觉空间到语义空间的映射通常不能很好的对样本进行分类,存在语义鸿沟的问题。为解决不同属性包含不同信息量的问题以及缓解语义鸿沟问题给分类结果带来的影响,本文提出基于属性选择和非负矩阵分解的零样本学习方法,首先计算属性信息量,通过权重机制对属性进行选择,给予包含信息量多的属性较高的权重,包含信息量低的属性较低的权重从而使得分类结果更加准确,同时采用非负矩阵分解的方法将原数据矩阵分解,用一组基向量来近似的线性表示语义特征和视觉特征,使得属于相同类别的视觉特征向量和语义属性向量可以用相同或相似的系数向量来表示,方便对视觉特征和语义特征进行直观的比较,从而在一定程度上缓解了语义鸿沟问题给分类带来的负面影响。