论文部分内容阅读
迁移学习是机器学习的热门研究之一,其主要思想是利用源域知识来辅助与源域相关的目标域的学习。领域适应作为迁移学习的重要研究方向之一,近年来已经取得了大量研究成果。目前领域适应问题考虑了适配源域和目标域的联合分布来实现域之间的特征匹配,并且假设数据类别满足均衡分布,但存在以下不足:1、未考虑目标域的聚类结构,忽略已给出的源域和目标域的聚类结构信息。2、如果源域和目标域存在类别不平衡情况,即源域和目标域中类的比例不同,直接进行域对齐可能会导致目标域样本的分类错误,甚至导致负迁移问题。因此,本文的研究内容主要包括以下两个方面。首先,无监督领域适应的经典方法中未考虑作为传统无监督学习的焦点之一的数据聚类结构。本文尝试在无监督域适应中探索目标域中的数据聚类结构。具体来说,本文提出了一个新的迁移学习框架,称为域适应聚类(Clustering for Domain Adaptation,DAC),在域适应学习中利用目标域数据的聚类结构。DAC通过同时减少域之间的分布偏移并探索目标实例的聚类结构来寻求域不变分类器。DAC的优化采用ADMM策略,其中每次迭代都会产生一个闭合解。在一些真实数据集上的实验结果验证了DAC的有效性。其次,本文提出一种基于分类器差异的平衡无监督域适应(Balanced Unsupervised Domain Adaptation based on Classifier Discrepancy,CD_BDA)方法。在CD_BDA中,通过由分类器的差异衡量出样本置信度来对样本分配合适的权重,并对两个分类器的差异进行对抗训练,以减轻类别不均衡分布带来的消极影响,同时也减少模糊类别样本的分类误差。CD_BDA的模型采用Adam策略进行优化求解。实验结果表明,较其他对比方法,CD_BDA方法可以使图像的分类准确度得到提升。