论文部分内容阅读
传统的机器学习方法假设训练数据和测试数据服从独立同分布,需要大量与测试数据同分布的有标记样本来保证学习模型的泛化性能。然而,在现实应用中,由于环境的变化或采样条件的限制,为某个特定的应用收集足够的训练样本是困难的甚至是不可能的。为了解决有标记样本稀缺的问题,域适应被提出来并受到了广泛的关注。
域适应属于迁移学习的一个分支,放宽了传统机器学习对于数据服从独立同分布的要求。给定大量来自源域的有标记样本和大量来自目标域的无标记样本,域适应假设源域和目标域具有不同的数据分布,但是二者的任务是相同的,即有相同的类别标签,域适应的目标是利用源域内的有标记样本来帮助学习一个在目标域内具有较高泛化性能的分类器,以此来减少对于目标域内有标记样本的需求。虽然域适应方法的性能较传统机器学习方法有所提升,但是现有的方法主要侧重于如何减少源域和目标域之间的分布差异,忽略了目标域内无标记样本在分类器学习过程中的作用,当源域和目标域数据分布差异较大时难以取得理想的效果。基于经验风险最小化准则和正则化理论,本文旨在研究如何在最小化经验风险的基础上设计并添加合适的正则项,提高模型的泛化性能,以提升分类器在目标域上的准确率,具体研究内容如下:
1.提出了一种解决域适应问题的学习模型:跨域正则化模型。相对于传统的正则化模型来说,除了最小化经验风险和结构风险之外,跨域正则化模型还可以有效地减少源域和目标域之间的分布差异;此外,在传统的正则化模型的基础上,通过添加适当的约束,跨域正则化模型可以充分地挖掘和利用目标域内无标记样本所提供的先验信息,进一步减少域之间分布差异带来的影响,提高分类器在目标域上的性能。该模型不仅从正则化的视角对域适应问题进行了一个全新的诠释,更为改进现有的域适应算法以及设计新型算法提供了一个公共平台。
2.提出了基于跨域判别分析和软标签正则化的域适应方法。本文将跨域正则化模型的优化分为两个步骤:特征学习和分类器学习。特征学习的目标是学习一个特征转移函数,将源域和目标域的样本投影到一个公共子空间中,使得二者的分布尽可能地相似。分类器学习的目标是在新的特征空间中学习一个分类器。为此,本文提出了特征学习方法:跨域判别分析,该方法在减少域之间分布差异的同时,可以充分地保留样本的判别信息,保证样本在新的特征空间中的可分性。此外,本文还提出了分类器学习方法:软标签正则化,该方法利用图拉普拉斯正则项,分别保持源域和目标域的流形结构;通过引入跨域约束,可以在分类过程中确保源域和目标域类先验概率的平衡,提高分类器的预测准确率。这两种方法的结合构成了完整的域适应方法,可以充分地利用源域样本标签信息和目标域样本的结构信息,提高数据的利用率,在多组数据集上的实验结果表明了该方法在多数情况下要优于现有的域适应方法。
3.提出了基于结构保持的跨域特征学习的域适应方法。现有的域适应方法在特征学习过程中忽略了目标域样本的结构信息,导致在分类器学习过程中,尽管使用了目标域中的无标记样本,但是由于缺少有效的结构信息,影响分类器的性能。为此,本文提出了结构保持的跨域特征学习方法,可以同时实现以下三个目标:(1)减少源域和目标域之间的分布差异;(2)保留源域内有标记样本的判别信息;(3)保留目标域内无标记样本的结构信息。此外,该方法可以将上述三个目标融入到一个统一的优化函数中,并通过广义特征值分解得到最优解,在目标识别、人脸识别、字符识别等不同任务上的实验结果表明了该方法的有效性。
4.提出了基于多视角联合正则化的域适应方法。随着多媒体技术的发展,人们可以更容易地获取到图像之外的辅助信息,例如文本、语音等。尽管使用多视角的数据可以提高分类器的性能,但是这些数据往往是无标记的。虽然域适应方法可以使用来自相关领域的知识减少对有标记样本的需求,但是现有域适应方法仅针对单视角的数据,无法利用图像之外的辅助信息。为了解决这种由单一视角到多视角的异构域适应问题,即源域内仅含有图像而目标域内则含有图像和辅助信息,本文提出了多视角联合正则化的分类器学习方法,该方法学习两个分类器:基于图像的视觉分类器和基于辅助信息的辅助分类器,最终通过二者的加权融合确定测试数据的类别标签。本文使用深度信息作为辅助信息进行了实验,实验结果表明了使用辅助信息对于提高图像分类性能的有效性。
域适应属于迁移学习的一个分支,放宽了传统机器学习对于数据服从独立同分布的要求。给定大量来自源域的有标记样本和大量来自目标域的无标记样本,域适应假设源域和目标域具有不同的数据分布,但是二者的任务是相同的,即有相同的类别标签,域适应的目标是利用源域内的有标记样本来帮助学习一个在目标域内具有较高泛化性能的分类器,以此来减少对于目标域内有标记样本的需求。虽然域适应方法的性能较传统机器学习方法有所提升,但是现有的方法主要侧重于如何减少源域和目标域之间的分布差异,忽略了目标域内无标记样本在分类器学习过程中的作用,当源域和目标域数据分布差异较大时难以取得理想的效果。基于经验风险最小化准则和正则化理论,本文旨在研究如何在最小化经验风险的基础上设计并添加合适的正则项,提高模型的泛化性能,以提升分类器在目标域上的准确率,具体研究内容如下:
1.提出了一种解决域适应问题的学习模型:跨域正则化模型。相对于传统的正则化模型来说,除了最小化经验风险和结构风险之外,跨域正则化模型还可以有效地减少源域和目标域之间的分布差异;此外,在传统的正则化模型的基础上,通过添加适当的约束,跨域正则化模型可以充分地挖掘和利用目标域内无标记样本所提供的先验信息,进一步减少域之间分布差异带来的影响,提高分类器在目标域上的性能。该模型不仅从正则化的视角对域适应问题进行了一个全新的诠释,更为改进现有的域适应算法以及设计新型算法提供了一个公共平台。
2.提出了基于跨域判别分析和软标签正则化的域适应方法。本文将跨域正则化模型的优化分为两个步骤:特征学习和分类器学习。特征学习的目标是学习一个特征转移函数,将源域和目标域的样本投影到一个公共子空间中,使得二者的分布尽可能地相似。分类器学习的目标是在新的特征空间中学习一个分类器。为此,本文提出了特征学习方法:跨域判别分析,该方法在减少域之间分布差异的同时,可以充分地保留样本的判别信息,保证样本在新的特征空间中的可分性。此外,本文还提出了分类器学习方法:软标签正则化,该方法利用图拉普拉斯正则项,分别保持源域和目标域的流形结构;通过引入跨域约束,可以在分类过程中确保源域和目标域类先验概率的平衡,提高分类器的预测准确率。这两种方法的结合构成了完整的域适应方法,可以充分地利用源域样本标签信息和目标域样本的结构信息,提高数据的利用率,在多组数据集上的实验结果表明了该方法在多数情况下要优于现有的域适应方法。
3.提出了基于结构保持的跨域特征学习的域适应方法。现有的域适应方法在特征学习过程中忽略了目标域样本的结构信息,导致在分类器学习过程中,尽管使用了目标域中的无标记样本,但是由于缺少有效的结构信息,影响分类器的性能。为此,本文提出了结构保持的跨域特征学习方法,可以同时实现以下三个目标:(1)减少源域和目标域之间的分布差异;(2)保留源域内有标记样本的判别信息;(3)保留目标域内无标记样本的结构信息。此外,该方法可以将上述三个目标融入到一个统一的优化函数中,并通过广义特征值分解得到最优解,在目标识别、人脸识别、字符识别等不同任务上的实验结果表明了该方法的有效性。
4.提出了基于多视角联合正则化的域适应方法。随着多媒体技术的发展,人们可以更容易地获取到图像之外的辅助信息,例如文本、语音等。尽管使用多视角的数据可以提高分类器的性能,但是这些数据往往是无标记的。虽然域适应方法可以使用来自相关领域的知识减少对有标记样本的需求,但是现有域适应方法仅针对单视角的数据,无法利用图像之外的辅助信息。为了解决这种由单一视角到多视角的异构域适应问题,即源域内仅含有图像而目标域内则含有图像和辅助信息,本文提出了多视角联合正则化的分类器学习方法,该方法学习两个分类器:基于图像的视觉分类器和基于辅助信息的辅助分类器,最终通过二者的加权融合确定测试数据的类别标签。本文使用深度信息作为辅助信息进行了实验,实验结果表明了使用辅助信息对于提高图像分类性能的有效性。