论文部分内容阅读
传统监督学习存在以下几个弊端:(1)给训练样本标注标签需要耗费大量人力和时间,代价昂贵。(2)可能会出现很难收集到某些类测试样本的同类训练样本。(3)在训练样本上学习的分类器泛化性能不高,即标签预测准确率较低。基于上述三个不足之处,有专家学者提出用零样本识别代替传统监督学习。零样本识别可以减少训练成本,同时显著提高识别率,因此具有巨大研究价值和广泛应用前景。零样本识别是利用已知标签训练样本的语义知识迁移完成测试样本标签预测,但是训练集和测试集没有交集,从训练样本学习的属性分类器必然无法完全适用于所有未见过的测试样本,会导致测试样本的预测属性不准确,与未知类别类原型属性发生偏移,即产生语义迁移问题。因此,研究如何缓解语义迁移对零样本识别的影响有重要意义,我们的主要工作如下所示:第一,我们提出了基于类间属性约束的语义自编码算法(SAOICAC算法)。此算法针对当前主流的SAE算法用类原型属性代替样本属性这一缺陷提出的。首先,我们在训练样本上基于语义自编码和视觉语义相似性约束一起学习属性分类器。然后,通过训练的属性分类器预测测试样本未知属性。最后,利用标签分类器获得测试样本标签。SAOICAC算法识别率远高于SAE算法,同时还可以提高识别速率。第二,在SAOICAC算法的基础上,我们提出了基于类间属性约束的双语义自编码算法(SDAOICAC算法)。SDAOICAC算法是鉴于SAOICAC算法识别率还受语义迁移影响较大的缺陷而提出的进一步改进算法。首先,在训练样本集和测试样本集上共同训练属性分类器。然后,利用属性分类器获得测试样本属性。最后,我们通过标签分类器将测试样本与未知类别类原型属性进行比对来得到测试样本标签。实验结果表明SDAOICAC算法识别率较之SAOICAC算法又有进一步提高。第三,我们提出了基于类内属性约束的语义自编码算法(SAWICL算法)。SAWICL算法是在SAE算法基础上结合类内样本属性相似性约束提出的。首先,在训练样本上基于语义自编码和类内样本属性约束一起训练属性分类器。然后,利用迭代得到的最优属性分类器学习测试样本属性。最后,我们使用标签分类器在属性空间中对测试样本进行识别。大量实验表明SAWICL算法可以大大提高识别率,减少语义迁移问题对零样本识别的影响。为了验证三个改进算法的正确性,我们分别在动物属性数据集(Animal with Attributes)、加州理工学院鸟类数据集(Caltech UCSD Birds)和雅虎数据集(aPascal-aYahoo)上和当前主流零样本识别算法进行对比。实验结果表明我们的三个改进算法均可以显著提高识别率,有效减少语义迁移对零样本识别的影响。