论文部分内容阅读
传统机器学习方法要求训练数据与测试数据具有相同的特征空间和特征分布。然而,在许多实际应用领域,这一条件往往很难满足。因此,利用已有领域所获得的信息和知识解决新领域问题的迁移学习方法近几年得到了更多的关注和研究。在这一类跨领域问题求解任务中,针对领域间具有潜在分布差异的问题,采用基于潜在空间的迁移学习方法具有较好的分类效果。此类方法构建单一的共享潜在特征空间,并使不同领域在此空间上满足分布一致。然而,当领域间的分布差异较大时,基于单一共享潜在空间的迁移学习方法难以有效地获取和利用领域间的潜在信息。为此,通过构建多潜在空间训练出适应性更强的跨领域学习模型具有重要的研究和应用价值。本文对迁移学习中多潜在空间的方法进行了研究,并提出了几种基于多潜在空间的迁移学习算法。主要研究工作如下:(1)提出一个能够在共享与非共享潜在空间中同时学习四种高层概念的四重迁移学习方法。本项研究基于如下几个出发点:首先,由于领域特有潜在信息有助于迁移学习模型的训练,且特有潜在信息大多通过构建特有潜在空间获得。因此,基于单一共享潜在空间的迁移学习方法难以有效地获取和利用特有潜在信息。其次,由于多义概念能够提高跨领域的学习能力,以往忽略多义概念的迁移学习方法难以适应多种不同的分布情况。针对以上问题,通过引入多义概念,四重迁移学习方法对包括多义概念在内的四种高层概念进行形式化,并创建共享和非共享的潜在空间。然后在共享和非共享的潜在空间上同时学习对应的高层概念。在此基础上,提出具有收敛性的算法QTL以实现优化问题。实验结果表明:QTL优于其他的对比方法,并有效的避免了负迁移的发生。(2)提出一个能够学习多个共享潜在空间上共享概念的多桥接迁移学习方法。由于单一共享潜在空间中的共享潜在信息仅是领域间所有共享潜在信息的一部分,因此,基于单一共享潜在空间的迁移学习方法难以有效地获取和利用共享潜在信息。针对这一问题,多桥接迁移学习方法在共现原始特征空间上创建多个不同的共享潜在特征空间,并在每个共享潜在空间上学习相应的高层概念以满足其分布一致。在此基础上,提出算法MBTL以实现优化问题。实验结果表明:MBTL在主题分类和情感分类任务上都优于其他的对比方法,并具有收敛性。(3)提出一个能够同时学习多个共享潜在空间上共享概念以及多个非共享(特有)潜在空间上非共享(特有)概念的多重迁移学习方法。针对基于单一共享潜在空间的迁移学习方法难以有效地获取和利用共享潜在信息和非共享潜在信息,多重迁移学习方法在共现原始特征空间上创建了共享潜在空间,在每个领域的原始特征空间上创建了非共享潜在空间,并将共享与非共享潜在空间组成一个潜在空间组。然后,创建多个不同的潜在空间组,并通过学习相应的各类高层概念以满足各组潜在空间的分布。在此基础上,提出算法MLTL以实现优化问题。实验结果表明:MLTL在跨领域文本分类任务上性能优异,并具有收敛性。