论文部分内容阅读
深度学习技术的迅速发展与大规模类别的标注数据集推动了计算机视觉任务的发展与进步,包括图像识别、目标检测与图像分割。由卷积神经网络组成的复杂模型,其性能很大程度上依赖于完备的训练数据。然而,收集并标注日常生活中所有类别的物体图片是不现实的事情,训练数据的缺乏便阻碍了这些模型在更大规模类别上的应用。为了解决这个问题,研究者们提出了零样本识别的概念,并基于此做了很多工作。他们利用语义知识作为中间桥梁来推理从未见过的新类,这些语义知识可以是类别的属性向量或者词向量。从分类再前进一步,我们也可以在零样本的条件下进行目标检测,但是目前这个问题还未得到深入的研究。零样本检测的主要目标是同时对图片中不可见类的目标对象进行定位与识别。目前,有研究人员尝试将零样本识别的算法移植到检测模型中来完成零样本检测的任务。虽然这个方法起到了一定作用,但是效果却差强人意。其实原因在于人们往往会忽略目标建议阶段的泛化能力,仅将关注点放在不可见类对象的识别上。作为一个检测问题,首先要解决的就是如何将目标找出,也就是将物体从背景中分离出来。这是零样本检测与零样本识别关键的不同之处,也是该问题的难点之一。零样本目标检测作为一个极具挑战性的现实问题,正在逐渐成为计算机视觉领域的研究热点。本文的工作致力于提升零样本目标检测的性能。前期工作以大量的基础调研为主,以熟悉该领域的发展概况并把握问题核心。通过分析通用检测器的算法原理,我们提出了两种新算法,分别用于增强目标建议的迁移能力和优化不可见类的预测能力。文章的主要贡献为以下三点:1.对零样本识别、目标检测以及零样本检测的研究进展进行综述,使用形式化的语言对零样本目标检测进行问题定义与算法描述。我们也着重介绍了算法中用到的关键技术基础,如视觉特征提取、候选区域生成和视觉语义映射。2.提出使用置信度分布增强目标建议模块迁移能力的零样本检测算法。置信度分布能够通过关联各类别之间的共现性来激励模型去评估某区域所有类别上出现的可能性,使目标建议模块实现知识迁移,这样可以提高测试阶段不可见类的召回率从而提升检测器的性能。3.提出基于超类引导的零样本检测算法以优化类别预测的环节。利用空洞卷积提取的上下文特征预测超类,超类概率分布可以为最终的分类提供有效的引导。与单纯使用语义向量来预测不可见类的方法相比,该方法在类别预测上具有更佳的表现。