论文部分内容阅读
多标签学习近年来由于在影像分类,多媒体图像标注,社交网络数据挖掘等许多场景中的广泛应用而引起了极大的关注。受社会需求影响,越来越多的学者对多标签学习展开深入研究。目前,多标签学习已成为人工智能领域的主要研究热点之一。不同于传统的单标签学习任务中每个样本只与一个类别信息有关,多标签学习需要输出多个标签信息,其中每个实例可以与一组标签相关联。由于标签之间存在相互关系,处理多标签学习问题比单标签学习问题变得更为复杂。尽管对于多标签学习的研究已取得一些进展,但目前仍然面临很多问题需要研究人员们来解决。第一,如何对多标签数据提取有效特征是解决多标签分类问题的关键所在。第二,在多标签学习中标签相互间通常是有关联的,在这种情况下,如何测量和捕获标签之间的相关性从而进行有效预测是至关重要的。第三,由于对数据进行人工标注的成本太高、用户更新频率大以及受噪声干扰等其它原因,只能获取数据的部分标签信息,因此如何解决含有缺失标签的多标签学习问题变得十分必要。最后,如何学习一种非线性映射能够有效提取数据间的判别信息也是多标签学习目前面临的重要挑战。本文主要围绕以上四个问题展开深入讨论和研究,并提出了一些新的模型和解决方案。本文的研究内容主要包含以下几个方面:1.针对多标签学习面临的特征提取问题,受L1范数度量对噪声异常值鲁棒等优势的启发,提出一种基于L1范数的多标签线性判别分析。大多数多标签特征提取算法使用L2范数的平方来度量标签或者样本间的相似度,由此会对噪声异常值非常敏感,从而会降低算法的灵活性。基于L1范数的多标签线性判别分析结合线性判别分析的优势,在保证类内离散度尽可能小,类间离散度尽可能大的同时,使用L1范数来度量数据样本之间或者标签之间的相似度,提高了模型的鲁棒性。本文提出一种非贪婪的迭代方法用于求解所提模型。不同于传统的贪婪策略求解方式,通过所提算法能够获得目标函数的局部最优解。与此同时,本文通过详细的理论分析和实验数据证明该算法的收敛性能良好。除此之外,本文证明所提方法可以扩展到二维的多标签线性判别分析。最后,为了验证算法的有效性,在常用的单标签实验数据库和多标签实验数据库上进行了大量仿真实验,结果表明与目前主流的特征提取算法相比,所提模型无论是在单标签分类任务还是多标签分类任务中均取得了显著的效果提升。2.针对如何有效处理和捕捉标签之间的相互关系,提出了一种基于核范数的半监督学习框架。在图嵌入学习中,大多数已有的半监督算法需要手动构建图模型挖掘标签之间的相关性。这种方式降低了算法的鲁棒性。此外,由于在实际应用中数据分布复杂,特别是当标记样本很少时,手动构建的图模型很难描述数据之间的关系。所提模型主要借助于核范数正则项自适应地构造类别图模型,减少了人工参数的影响,尤其当标记样本数目较少时,所提算法构造的类别图模型更加准确。基于该框架提出两个算法,分别是基于核范数的多标签高斯随机场模型NML-GRF和基于核范数的多标签局部全局一致性模型NML-LGC,同时提出一种非贪婪迭代算法求解所提两个模型。为了能处理out-of-sample问题,从而能对新的样本数据进行快速分类,进一步将所提框架与线性分类器相结合,提出了NML-GRF2和NML-LGC2两个算法。仿真实验表明提出的方法在处理多标签图像分类上有良好的效果提升。3.针对含有缺失标签的多标签图像标注问题。提出了一种基于支持向量机的多标签学习方法SVMMN。不同于传统多标签学习算法要求已知标签信息必须完整,SVMMN方法允许获得的标签信息存在缺失,遗漏等情况。在考虑样本平滑性和标签平滑性的前提下,SVMMN利用支持向量机的原理,在保证分类准确的同时,最大限度地减少边缘区域的样本数量。此外,提出一种高效的迭代算法用于求解SVMMN的目标函数。最后,大量标注实验结果表明所提迭代算法有良好的收敛性,同时与当前许多图像标注算法相比,SVMMN进一步提高了含有缺失标签的图像标注的准确性和实效性,具有良好的实际应用价值。4.针对如何有效捕获多标签数据中的非线性关系和判别信息,提出一种多标签判别性深度度量学习方法。不同于传统度量学习方法仅学习一个线性映射往往会受到数据点非线性关系的影响,或者使用核方法容易造成可扩展性较差,鲁棒性降低等问题。所提模型主要结合深度学习模型与判别性度量学习,通过卷积神经网络学习一个非线性映射,同时利用判别性度量学习保留样本的判别信息。最后,实验结果表明与传统的线性度量学习方法相比,所提算法可以进一步提高多标签图像分类的准确性。