论文部分内容阅读
随着科技信息的不断发展,多视图数据广泛存在于实际生活中,为数据分析提供了更丰富、更全面的信息。在实际中,当获取到一定量的标注样本时,我们可以利用标注样本训练出分类器,从而实现对未标注样本的监督分类。由于标签获取的昂贵性,也会出现只能获取到少量标注样本的情况,那么可以利用少量标注样本与大量无标注样本一起训练学习,从而实现未标注样本的分类,这个过程是半监督分类。因此,对于多视图数据的半监督和监督分类在生活中都有着广泛的应用,逐渐成为了如今的研究热点。然而,传统的基于图的半监督分类算法只是在每个内部构造图,没有考虑到多视图数据的全局结构,使得算法的分类性能是次优的。与此同时,在多视图分类中,如何获得视图一致性表达是研究多视图分类的关键所在。而大多数已有算法仅采用欧式距离去度量,欧式距离对尺度敏感的特性使得算法所获得的视图一致性表达是不鲁棒的,并且已有方法没有考虑到不同类样本的类特定分布。针对上述问题,本文的研究内容如下:(1)针对基于图的半监督分类算法忽略了多视图数据的全局结构,提出了联合全局与局部图的半监督分类算法(SSC-GL),同时考虑了串联视图的全局结构以及单一视图的局部流形结构,使得学习到的相似矩阵能够更好地表达数据之间的内部关系,具有更好的一致性结构。实验证明了算法的有效性,特别是在标签比例较小的情况下,所提算法具有更好的性能。(2)针对已有的多视图分类算法没有获得鲁棒的视图一致性表达,且没有考虑样本类特定分布的问题,提出了联合对抗学习和类特定分布的跨视图分类算法(CvALCS)。利用GAN的思想结合Fisher准则获得鲁棒的视图一致性表达,即将视图度量学习(Fisher准则)作为生成器,视图分类器作为判别器。在训练过程中,视图度量学习不断最大化视图分类器犯错的概率,而视图分类器的目的是尽可能正确地为样本分配标签,二者的对抗博弈过程可以更好地消除视图间的差异从而获得鲁棒的视图一致性表达。在此基础上,用(?)12范数度量的类特定分布项,使得具有相同标签的视图一致性表达在维度空间具有共同的分布,而具有不同标签的视图一致性表达在固有的特征空间具有不同的分布。我们将对抗学习和类特定分布整合到一个统一框架中,这样学习到的视图一致性表达不仅能够很好地编码判别信息,而且很好地刻画了维度空间的类结构,真实数据集上的实验证明了所提算法的有效性。