论文部分内容阅读
随着计算机技术在各个方面的快速发展,数据获取能力和数据存储技术的不断进步,大量带有丰富信息的多样化数据随之出现。由于数据数量的增长和数据内容的不断丰富,单一的特征很难将事物完整的描述,通过不同的数据获取方式,同一个事物可以通过多种不同的方式表示,使数据的描述变得更加便捷精准。针对某一对象通过不同方式或角度获得的特征数据,即特征数据是被多个属性或多个特征描述的,这样的数据被称为多视角数据。然而在实际生活中,收集没有标记的多视角实例数据较为容易,想要获得大量携带标记的实例数据则需要消耗大量资源。在分类问题中,若仅利用数量较少的标记实例进行学习,所获得的分类模型往往泛化性能较差。与此同时,若仅使用数量较少的带有标记的实例进行学习而不是更为普遍的未标记实例,还会损失掉一些隐含信息。协同训练是一种基于多视角的经典半监督学习方法,能够交替学得不同视角之间的差异信息,利用未标记实例的隐含信息改善其泛化性能,该方法已经成为多视角学习领域中的重要组成部分。关于协同训练在理论以及算法上的改进,仍被持续关注。在上述背景情况下,本文主要研究了基于实例分类难度的多视角协同训练。在论文的前两章,介绍多视角协同训练的研究背景和现状,阐述论文中涉及到的协同训练概念和相关理论,为本文的研究工作提供了重要的理论基础。在论文的第三章,提出了基于实例分类难度的多视角标准协同训练算法。在深入分析标准协同训练的基础上,针对该算法在训练初始阶段,存在基分类器容易错误标记初始未标记实例样本,导致之后的迭代训练加剧这种实例样本的影响,使学习性能降低的问题,对此进行改进。改进的算法利用多视角数据中标记实例和未标记实例之间的空间关系,设计实例分类难度的计算方法。将分类难度转化为难度值,并将其作为添加新实例到标记实例集合的条件之一,实现提升分类性能的目标。实验表明,提出的改进算法能够有效地提升学习能力,相较于对比算法更可靠。在论文的第四章,将实例的分类难度与协同训练模式的Tri-training相结合,提出对应的改进算法。该算法主要针对Tri-training主分类器在性能较差的初始阶段,存在两个辅助分类器可能会对未标记实例的类别同时判断错误,从而导致分类错误的问题。该算法利用实例的分类难度,在辅助分类器预测标记相同的情况下判断该实例是否容易被正确的预测结果,减少错误预测结果的实例。并在随后的协同训练过程中,不断将符合条件的“更可信”的实例添加到每个主分类器的标记实例集合中,实现提升整体的分类性能的目标。通过和其它多视角分类算法进行对比,表明提出的改进算法更优。