论文部分内容阅读
人类主要通过眼睛来观察环境从而获取有用的信息,这是人类智能的一个组成部分。计算机视觉技术相当于给计算机装上了“眼睛”,使用计算机对图像或视频数据进行理解和分析,这形成了人工智能的重要组成部分。在计算机视觉领域里,细粒度图像分析是一个长期存在的基本问题,而且广泛地存在于各种实际应用中,如高可靠性的身份认证、高精准的商品推荐等。细粒度图像分析任务旨在分析同一种类下的子类别视觉对象,但由于图像类内差异大而类间差异小,这使得细粒度图像分析任务成为了具有挑战性的问题,它需要获取高辨别性的细粒度特征来辨别不同类别之间的微小差异。目前,得益于深度学习的蓬勃发展,现在的细粒度图像分析任务常使用深度神经网络来提取图像中的细粒度特征,并根据这些细粒度特征来区分不同类别。已有一些深度学习算法针对特定的图像数据库给出了有效的细粒度特征分析,但方法的准确率与普适性还有待进一步提高;另外,由于一般情况下用于细粒度数据集的训练样本较少,经过训练的深度神经网络普遍存在过拟合现象,导致其测试性能未能达到人们的预期表现。因此,本课题拟提出有针对性的深度学习算法对不同的细粒度图像分析任务进行改进,从基于全局图像的深度学习特征提取算法和基于局部图像的深度学习特征提取算法来对细粒度图像特征展开研究,主要研究内容如下:1.研究了基于深度学习的细粒度图像分类。已有研究表明,对细粒度图像中的主要物体进行定位是有利于提升细粒度图像分类任务的测试性能。为此,本文提出了基于空间和通道的注意力机制,它能有效地定位细粒度图像中的主要物体,并提取出高辨别性的细粒度特征。此外,在注意力机制定位主要物体的位置后,使用多样化的注意力数据增广技术对网络模型进行训练,减缓了模型的过拟合现象。在测试阶段,利用注意力裁剪和注意力放大对测试图像进行重采样,从而进一步地提升了网络模型的测试性能。2.研究了基于深度学习的细粒度图像检索。细粒度图像检索任务通过细粒度特征来检索类别相同的图像,因此,如何提取高辨别性的细粒度特征是关键。为此,本文使用深度神经网络对细粒度图像进行特征提取,并提出了分段交叉熵损失函数用于训练深度神经网络。分段交叉熵损失函数在训练深度神经网络时引入了适量的噪声,使得网络模型的输出处于一个较为稳定的状态。大量的实验证明了分段交叉熵损失函数能有效地减缓网络模型在训练阶段的过拟合现象,从而提升了细粒度特征的可分辨性。3.研究了基于深度学习的局部图像特征提取算法。局部图像特征的好坏对后续任务(图像匹配、三维重建和相机等位等)的性能起到决定性作用。为此,针对基于深度学习的局部图像特征提取算法,本文提出了分段混淆损失函数,在网络模型训练阶段,该函数通过引入适量的混淆噪声,减缓了模型对训练数据的过拟合现象,从而使得模型提取的特征泛化性能变强。4.研究了基于深度人脸毛孔特征提取的高清人脸识别。有研究表明人脸毛孔和指纹、虹膜一样,是可用于辨别人类身份的生物特征,但由于缺乏人脸毛孔的大型数据集,现在仍然没有基于深度学习的人脸毛孔特征面世。为了推动人脸毛孔特征技术的发展,本文提出了适用于人脸毛孔特征匹配的三维人脸限制算法,它能有效地保留人脸毛孔特征正确匹配数目,从而构建了一个大型的人脸毛孔图像数据集。在构建大型的人脸毛孔图像数据集后,提出了一个新颖的基于深度学习的人脸毛孔特征,它有良好的泛化性能,能用于高清人脸识别任务和双胞胎人脸识别任务。