基于转导式的零样本图像分类方法

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:goskatecomcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有监督学习是从标签化训练数据集中推断出函数的机器学习任务,是机器学习中最重要的分支之一,近年来随着深度学习的发展,有监督学习的性能得到了巨大的提升,例如深度残差网在ImageNet数据集上1000个类别的top-5物体识别精度已经达到97.7%,已被证明超越了人类的识别能力。但是,有监督学习受到一个非常强力的约束,即测试数据必须与训练数据来自同一类别,且需要为每个类别搜集数百乃至上千个有标签的样本。由于地球上有数十亿物种,每天都会有新的物种出现,因此,不可能将所有类都包含在一个训练模型中。针对这个问题,迁移学习,少样本学习,单样本学习,零样本学习等方法应运而生。零样本学习旨在识别训练期间没有可用标签数据的类别,凭借其更符合人类学习机制的特性,近年来获得了巨大的关注度,成为了诸多领域的研究热点问题。基于上述研究背景,本文主要研究基于转导式的零样本图像分类方法,通过对现有方法短板的深度分析,采用不同的建模方式有效解决了目前零样本学习面临的领域偏移,枢纽点等问题,从而很好地提高了零样本学习的性能。本文的主要研究内容及贡献如下:1.本文提出了一个通用的转导正则化器(GTR),用于转导式零样本学习,它通过定义Kullback-Leibler散度(KLD)将未标记的样本分配给已知的属性,具体而言,就是强制将未标记的不可见类数据分配给类似于目标分布的数据分布。GTR与原始的归纳式方法无关,因此可以轻松地扩展到许多有关零样本学习的兼容线性模型和深度模型,并显著提高原始零样本学习方法的分类准确性。目前的转导设置的正则化器均仅仅适用与他们所提出的模型,不能扩展到其他模型上,这严重限制了这些方法的使用。为此,本文提出了通用转导设置正则化器(GTR),该正则化器可以很容易扩展到其他归纳式方法,尤其是兼容模型。2.本文提出了一个概率模型框架,定义了一个新的隐空间,它具有两个特性,第一个是该空间中的特征类内聚集,类间分散,通过三元组网络实现;另一个是不可见类的类原型是使用非负系数与可见类的类原型合成的,非负系数通过可见和不可见类之间的关系生成,这个关系通过非负矩阵分解(NMF)计算而得。利用高斯模型,完成了该框架的转导式模型。本文主要改进了概率分类模型,使用度量学习的方法使得数据更具判别性。另外,在可见的类和不可见的类之间建立关系以解决领域偏移问题。3.本文提出了一种基于鲁棒性主成分分析(RPCA)的方法,通过添加稀疏噪声约束来做一个松弛化处理。另外,为了避免相似类别之间产生混淆,采用正交约束将所有类原型(包括可见和不可见类)分散在隐空间中。此外,为了缓解领域偏移问题,利用来隐空间的向量分别重构视觉特征和语义属性。本文用来自隐空间的向量分别重构视觉特征和语义属性以减轻领域偏移问题。另外,通过在组合的三个空间中应用最大概率模型,也减轻了枢纽点问题。
其他文献
视频拍摄中,图像采集环境差、成像系统退化和目标物体运动等容易导致采样视频存在不必要的模糊。研究者们提出了许多优秀的视频去模糊方法。但由于视频图像特有的时空相关性,如何综合利用时空信息依然有很大的改进空间。本文首先综合回顾了国内外研究现状,分析并实现了三种经典的视频去模糊算法:加权傅立叶聚合视频去模糊算法(Weighted Fourier Accumulation Algorithm,WFA),基于
随着数字化等信息技术的不断发展,数字图像信息不管是从数量上还是规模上都在飞速增长,如何管理和应用这些海量图像资源成为当前重点研究问题之一。就图像检索技术而言,传统利用人工标注关键字进行图像检索的技术已满足不了人们的实际需要,最近几年,基于内容的图像检索技术逐渐成为了新的研究热点。通常人们判别两张图像的相似程度并非根据图像的底层特征,而是根据图像描述的内容。而计算机对图像底层特征的理解较为容易,对获
为了探索大学生在网络学习中师生交互与学习投入的关系,以及自主动机和学业情绪在其中的中介作用,本研究采取问卷调查法,使用师生交互问卷、自主动机问卷、大学生学业情绪量表、学习投入量表,对563名大学生开展调研。结果发现:网络学习中的师生交互既可以直接显著正向预测学习投入,也可通过积极情绪间接影响学习投入,还可依次通过自主动机和积极情绪的链式中介作用正向预测学习投入,而消极情绪在其中的中介作用不显著。研
多模态视网膜成像可以为视网膜疾病的解读与评估提供多方位的信息,将不同模态图像提供的互补信息进行多模态融合可以辅助临床医生进行病情诊断及评估。本文利用图像处理和分析的方法来对视网膜病变图像进行多模态融合,主要包括以下研究内容:(1)提出一种基于频域光学相干断层成像技术(SD-OCT)和相干光断层扫描血管成像(OCTA)体数据的脉络膜新生血管(CNV)多模态融合算法,算法主要包括以下四个部分:预处理、
随着我国智慧城市、智慧交通等项目的持续开展,智能视频监控得到了越来越多的关注。智能视频监控主要包括对人或物的识别、运动轨迹跟踪以及个体状态或场景状态分析等任务。多目标跟踪算法为流量统计、异常行为检测等任务提供基础数据,是智能视频监控中的关键算法。因此,本文提出了基于深度哈希特征的多目标跟踪算法。此外,针对无人机道路监控场景,本文提出了基于多目标跟踪的异常行为检测算法,同时开发了一套无人机道路监控系
微光相机电子学性能评测系统用于评估微光相机的综合性能。随着微光相机技术的发展,用户对微光相机的性能提出了各种各样新的需求,完整、准确地评测微光相机的整体性能变得至关重要。然而,目前被国内外广泛认可的相机评测标准都是针对适光相机制定的,这些评测标准并不完全适用于微光相机。为了解决这个问题,本文提出了一套基于相机输出图像的微光相机成像电子学评测方法,并在此基础上搭建了一套可以高效操作的评测系统。通过微
如今,通过脑成像技术研究精神类疾病诊断受到了越来越多的关注。基于功能磁共振成像(fMRI)数据对大脑功能连通性相互作用的探索和对大脑功能连接的动态性分割对于精神类疾病的研究至关重要。由于注意力缺陷/多动障碍(ADHD)是一种影响数百万儿童的慢性疾病,而且难以诊断,因此在疾病诊断的准确率方面仍有很大的改进空间。本文分别在分类算法研究和脑动态网络稀疏性建模方面有所改进,用以提升ADHD患者儿童和正常儿
随着互联网的发展,文本数据的激增,自然语言处理领域得到了良好的发展。在自然语言处理领域中,自动文本摘要生成技术是一个重要的研究方向,该技术能够大大缩减人工摘要形成的时间,帮助相关人员快速获取国内外新闻动态,并及时作出应急响应处理。此外,利用数据挖掘、机器学习等技术,能够深层次地挖掘文本背后的语义,形成质量和准确度都较高的摘要。本文提出一种基于语义的自动文本摘要生成算法,以海外新闻文档为研究对象,利
运动目标跟踪作为机器视觉领域的重点研究内容,广泛应用于智能监控、智能交通、人机交互等各个领域。但由于跟踪场景复杂多变,跟踪效果易受遮挡、尺寸变化和快速移动等干扰因素的影响,想要设计一个鲁棒性高、通用性好、精确度高的目标跟踪算法仍然面临许多挑战和难题。因此,本文对核相关滤波跟踪算法进行研究,从位置预测、特征融合、尺度更新和模型更新四个方面进行改进,解决了算法存在的遮挡、尺度变化及跟踪误差累积问题,显
工作票是大型复杂IT系统运行时的产物,记录着系统产生或者用户上报的故障事件信息,是开展系统运维活动的重要数据载体。实现工作票问题自动化分类是智能化系统运维的重要研究内容之一,对于提高系统运维效率,降低系统运维成本有着显著的贡献。现有的工作票分类方法未考虑工作票问题分类标签中存在的噪声,且存在分类方法精度不够高的问题。因此,有必要研究面向噪声工作票的分类方法,以消除噪声标签给工作票有效分类带来的负面