论文部分内容阅读
图像识别是计算机视觉领域一个典型的任务。相对于闭集假设下的图像识别任务,开集识别不仅能够识别训练数据集中的已知类别,而且能够对训练数据集中没有出现的未知类别对象,做出拒绝响应或标注为“未知”。在真实世界的识别或分类任务中,对识别器或分类器进行训练时,由于受到各种客观因素的限制,通常很难收集到穷尽所有类别的训练样本。更普遍的情况是开集识别(Open Set Recognition,OSR),训练时存在对世界的不完备类别知识,测试时允许将未知的类别实例提交给算法。要求分类器不仅准确对训练数据集中已有的类别进行分类,而且还要有效地处理那些在训练数据集中没有出现的类别。近年来随着深度学习的兴起,针对图像识别的深度学习在很大程度上依赖于卷积神经网络模型。虽然卷积神经网络(Convolutional Neural Networks,CNNs)识别模型很有效,但是良好的效果很少能被理论解释。最近解决开集识别任务的方法包括两个主要部分:在属于同一类别的对象上引入距离度量,使其具有较低的类内距离;然后建立了一个紧凑的衰减概率模型。对于某一测试对象实例,当概率低于已知类的阈值时,就确定该对象属于训练数据集中未见的类别。然而,这些方法在模型的训练过程中没有考虑到已知类别的图像数据标签信息。本文在前人研究的基础上,将已知类别的图像数据标签信息纳入模型的训练阶段。具体来说,本文的主要贡献有三项:(1)针对自编码网络参数量在具体实验环境下的需求,调节网络通道数量和批处理大小。通过控制变量的方法,对不同的网络通道数量和批处理大小情况下的自动编码网络进行性能测试,对比开集识别的实验结果,可以最大限度的提升自动编码器在开集识别模型中的性能。(2)由于从闭集识别到开集识别研究处于起步阶段,之前的研究者都更注重开集识别问题的形式化描述和理论研究,对开集识别的实验应用研究尚未成熟。在所有的开集识别模型中,在训练开集识别模型阶段都忽视了训练数据中的图像类别标签信息。本文通过在图像重建中嵌入训练数据的标签信息。这样可以使不同类别的图像,在深度网络上获取的几何图像特征之间具有更大的类间间距,使同一类别的图像特征之间获得更紧凑的类内距离,提高了类间图像实例的判别性和类内图像实例的内聚性。这样可以更好地识别训练数据集中的已知类别。同时,设置阈值对训练数据集中没有出现的开集域中的类别实例做出拒绝响应或标注为“未知”类。(3)为了验证嵌入图像数据标签信息有效性和本文开集识别模型的泛化性和适用性,本文在多个标准数据集上做了大量的实验。实验结果表明该方法在多个标准数据集上都优于现有的深度开集分类器,并且对不同的开集类别具有较强的鲁棒性。