基于跨域正则化模型的域适应方法研究

来源 :哈尔滨工业大学 | 被引量 : 2次 | 上传用户:suyu_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习方法假设训练数据和测试数据服从独立同分布,需要大量与测试数据同分布的有标记样本来保证学习模型的泛化性能。然而,在现实应用中,由于环境的变化或采样条件的限制,为某个特定的应用收集足够的训练样本是困难的甚至是不可能的。为了解决有标记样本稀缺的问题,域适应被提出来并受到了广泛的关注。
  域适应属于迁移学习的一个分支,放宽了传统机器学习对于数据服从独立同分布的要求。给定大量来自源域的有标记样本和大量来自目标域的无标记样本,域适应假设源域和目标域具有不同的数据分布,但是二者的任务是相同的,即有相同的类别标签,域适应的目标是利用源域内的有标记样本来帮助学习一个在目标域内具有较高泛化性能的分类器,以此来减少对于目标域内有标记样本的需求。虽然域适应方法的性能较传统机器学习方法有所提升,但是现有的方法主要侧重于如何减少源域和目标域之间的分布差异,忽略了目标域内无标记样本在分类器学习过程中的作用,当源域和目标域数据分布差异较大时难以取得理想的效果。基于经验风险最小化准则和正则化理论,本文旨在研究如何在最小化经验风险的基础上设计并添加合适的正则项,提高模型的泛化性能,以提升分类器在目标域上的准确率,具体研究内容如下:
  1.提出了一种解决域适应问题的学习模型:跨域正则化模型。相对于传统的正则化模型来说,除了最小化经验风险和结构风险之外,跨域正则化模型还可以有效地减少源域和目标域之间的分布差异;此外,在传统的正则化模型的基础上,通过添加适当的约束,跨域正则化模型可以充分地挖掘和利用目标域内无标记样本所提供的先验信息,进一步减少域之间分布差异带来的影响,提高分类器在目标域上的性能。该模型不仅从正则化的视角对域适应问题进行了一个全新的诠释,更为改进现有的域适应算法以及设计新型算法提供了一个公共平台。
  2.提出了基于跨域判别分析和软标签正则化的域适应方法。本文将跨域正则化模型的优化分为两个步骤:特征学习和分类器学习。特征学习的目标是学习一个特征转移函数,将源域和目标域的样本投影到一个公共子空间中,使得二者的分布尽可能地相似。分类器学习的目标是在新的特征空间中学习一个分类器。为此,本文提出了特征学习方法:跨域判别分析,该方法在减少域之间分布差异的同时,可以充分地保留样本的判别信息,保证样本在新的特征空间中的可分性。此外,本文还提出了分类器学习方法:软标签正则化,该方法利用图拉普拉斯正则项,分别保持源域和目标域的流形结构;通过引入跨域约束,可以在分类过程中确保源域和目标域类先验概率的平衡,提高分类器的预测准确率。这两种方法的结合构成了完整的域适应方法,可以充分地利用源域样本标签信息和目标域样本的结构信息,提高数据的利用率,在多组数据集上的实验结果表明了该方法在多数情况下要优于现有的域适应方法。
  3.提出了基于结构保持的跨域特征学习的域适应方法。现有的域适应方法在特征学习过程中忽略了目标域样本的结构信息,导致在分类器学习过程中,尽管使用了目标域中的无标记样本,但是由于缺少有效的结构信息,影响分类器的性能。为此,本文提出了结构保持的跨域特征学习方法,可以同时实现以下三个目标:(1)减少源域和目标域之间的分布差异;(2)保留源域内有标记样本的判别信息;(3)保留目标域内无标记样本的结构信息。此外,该方法可以将上述三个目标融入到一个统一的优化函数中,并通过广义特征值分解得到最优解,在目标识别、人脸识别、字符识别等不同任务上的实验结果表明了该方法的有效性。
  4.提出了基于多视角联合正则化的域适应方法。随着多媒体技术的发展,人们可以更容易地获取到图像之外的辅助信息,例如文本、语音等。尽管使用多视角的数据可以提高分类器的性能,但是这些数据往往是无标记的。虽然域适应方法可以使用来自相关领域的知识减少对有标记样本的需求,但是现有域适应方法仅针对单视角的数据,无法利用图像之外的辅助信息。为了解决这种由单一视角到多视角的异构域适应问题,即源域内仅含有图像而目标域内则含有图像和辅助信息,本文提出了多视角联合正则化的分类器学习方法,该方法学习两个分类器:基于图像的视觉分类器和基于辅助信息的辅助分类器,最终通过二者的加权融合确定测试数据的类别标签。本文使用深度信息作为辅助信息进行了实验,实验结果表明了使用辅助信息对于提高图像分类性能的有效性。
其他文献
【中图分类号】G612 【文献标识码】A 【文章编号】2095-3089(2016)34-0287-01  俗话说:三岁看到老,没有规矩不成方圆。发展心理学认为,心态决定命运,细节决定成败,习惯成就未来。幼儿教育家陈鹤琴先生说:“人类的动作十分之八九是习惯,而这种习惯大部分是在幼年养成的。从幼儿教育规律来说,小班是幼儿跨入集体生活的一个转折点,也是进行常规教育的关键期。如果在这最佳期里,我们有目的
期刊
【摘 要】教师在课堂教学中有意识地设置一个个的问题,可以不断引起学生认识上的矛盾,促进学生思维的发展,有利于培养学生独立思考、认真探究、善于发现的好习惯。在语文教学中,我们要针对小学生的认知特点,充分利用教材,精心设置问题,简化教学头绪,成就语文课堂的简约和精彩!  【关键词】题眼 关键 重点段 重复 矛盾 结尾 想象 引申  【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3
期刊
【摘 要】农村初中学生视野狭窄,知识面狭窄,阅读量少。一部分农村初中学生,一上作文课就愁眉苦脸,抓耳挠腮。如何有效地提高农村初中生的写作水平,本文从两方面进行探讨:一、重視“作后评讲”和“作后指导”,实行“先写再评,后指导,多修改,二次作文”的作文教学模式。二、引导学生从生活和阅读中积累素材。  【关键词】作后评讲 作后指导 先写再评 修改作文 二次作文 积累素材  【中图分类号】G633.3 【
期刊
【摘要】《甜蜜蜜》内容为小说,以人物对话为主。这部作品对我来说有一定难度。特别是对于符合场景要求的口语翻译。希望通过这篇文章的翻译能够提高自己对情景口语翻译的把握,准确表达文章的内容。  本报告首先介绍了文章的体裁,作者风格。接着介绍了规划和异化理论及归化和异化理论在本文翻译过程中的应用情况。后面整理阐述了翻译过程中用到异化和归化理论翻译的典型句子,分析了采取归化或异化方式翻译的原因和翻译后的效果
期刊
在雷达、扩频通讯、信号检测等很多的研究方向中,不同种类的序列都会被需要。尤其是随着通讯领域的不断发展,对于序列的需要也变大了。最佳信号的异向循环自相关函数值(旁瓣值)是0,但是并不容易得到,而且序列和序列偶的研究受到了限制。在这个基础上,几乎差集偶的概念被提出来了,方便了三值自相关二元序列偶的研究。本文主要是通过计算机搜索得到数据,来总结规律构造出平衡几乎差集偶和几乎最佳自相关二元序列偶,且几乎最佳自相关二元序列偶与几乎差集偶有着等价关系。
  首先,分析了二元序列、差集偶以及几乎差集偶和几乎最佳自
【中图分类号】G633.41 【文献标识码】A 【文章编号】2095-3089(2016)29-0009-01  轉眼间,自己作为英语教师已经六年多了。可能是由于在乡镇的关系,学生的基础较差。所以,刚入学时,我几乎都会发现学生们对英语的兴趣并不是很高,对待英语既有点好奇又有点害怕。在这种情况下给予怎样的引导,才能使他们更好、更快地走进英语的世界并且爱上学英语这件事呢?这成了我一直在思考并努力为之探
期刊
磁共振成像(MRI,Magnetic Resonance Imaging)是一种安全、无辐射的新型医学成像技术,它能够提供高对比度的人体组织影像,并且成像方式灵活,可以通过多参数成像突出不同组织的细节信息。然而,MRI扫描时间较长,但扫描对象无法长时间保持静止不动,因此MRI成像容易产生运动伪影。增加扫描层厚能够提高扫描速度,但层厚越大,MRI图像的空间分辨率越低,并且容易产生部分容积效应,不利于疾病的分析与诊断。因此,如何获取高分辨率的MRI图像是一个亟待解决的课题。近年来,基于深度卷积神经网络(DCN
【中图分类号】G4 【文献标识码】A 【文章编号】2095-3089(2016)34-0293-02  一、背景  某日,我班学生英语测验,迟放学十分钟。第二日到校,听同事说昨天放学后,相邻两班学生因口角发生矛盾并在校外摆开场子寻事,我班学生围观者较多。我先在本班学生中了解了一下情况,让围观者自己说明昨天究竟怎们回事,为何围观,有没有参与,学生第一反应都是推卸责任。第二节下课后,我们三位当事班的班
期刊
说话人识别技术作为身份识别应用中的重要技术之一,以其无需密码、无需个体接触、识别设备成本较低等优势,广泛应用于各种身份认证系统中,倍受企业与研究者们的关注。经过数十年的发展,说话人识别研究取得了巨大进展;其中,特征提取作为寻找说话人个性信息的重要手段一直是研究热点之一。在各类语音处理应用中,由于语音信号具有短时平稳的特性,一般采用短时的帧级声学特征来刻画语音。然而,说话人的个性信息往往蕴藏在较长语音段的统计特性中,因此如何从一段语音的帧级特征序列中提取出话语级说话人特征,就成为说话人识别研究的关注焦点之一
数据的可访问性、便捷性和可靠性是十分关键的,任何形式的干净数据都已成为当今社会中人类的新财富。在许多领域里,由于数据本身大容量和高速传输的特点所带来的巨大挑战,维护高质量数据的能力已经变得十分重要。数据可以给各个行业的企业提供对其企业活动的价值分析进而帮助企业激发其最佳潜力,并在与对手竞争中获得更大的优势。因此企业现在大力投资研发数据挖掘技能,期待从不同类型数据中发现隐性的数据价值。
  离群点检测是一项非常重要的数据挖掘任务,其目的是检测偏离正常数据预期模式的对象,因为离群点有极大可能影响数据分析