论文部分内容阅读
有监督学习和无监督学习是机器学习领域中两种传统的学习方法,在很多领域已得到广泛应用。但是由于标记样本的获得需要较大的代价、只利用无标记样本在分类效果上不佳,针对这种问题,半监督学习应运而生并得到了广泛研究与应用。基于图的半监督分类算法因为分类性能好、目标函数是凸函数、求解容易等优势获得了更多的关注。本文主要选择基于图的半监督分类算法展开较深入的研究,发现其在对图像分类的应用中有以下问题:算法时间复杂度较高,空间复杂度较高,在对大规模图像分类时空间复杂度高导致内存溢出无法计算,在对背景或者目标较复杂的时候分类准确率较低等。针对基于图的半监督算法在图像分类中存在的问题,本文在半监督学习的基础上,提出了两种适用于图像分类的算法。论文的具体工作如下:1.针对拉普拉斯正则最小二乘分类算法在对图像分类时,在标记样本很少时需要大量无标记样本才能训练分类精度较高的分类器,导致空间和时间复杂度高,甚至不能处理大规模图像,并且在对背景或目标复杂,背景与目标特征相近的图像分类时错误率较高的问题,提出了结合均值漂移的基于图的半监督流形正则化图像分类算法。该方法首先是通过均值漂移算法对图像进行平滑,以平滑后的图像作为初始分类对象,由于图像的平滑使得目标、背景区域的特征更为一致,有效去除了区域中的跳跃点和噪声,从而利用较少的样本就可以提高分类器的正确率。其次,不是利用所有无标记样本,而是只采用少量无标记样本。实验结果表明,结合均值漂移后的LapRLS在图像分类时获得了较高准确率的同时,大大降低了算法的复杂度,使得基于图的半监督分类算法用于分类大规模图像成为可能。2.大多数基于图的半监督分类算法都是直推的,意味着不能对标记样本和未标记样本之外的新的样本数据进行标记预测。所以在使用直推式的基于图的半监督分类算法对图像分类时,由于图像数据量较大、算法复杂度较高、甚至内存的溢出而不能计算的原因,只能处理规模很小的图像。针对上述问题,文中使用了基于锚点的建图方式,有效的扩展了直推式的基于图的半监督分类算法的解决问题的规模,但通过K均值对所有样本数据聚成多类,用聚类中心作为锚点会耗费很长时间。所以提出了运用均值漂移计算图像中的锚点,避免了使用K均值聚成多类所花费的大量时间。均值漂移算法不但求出了锚点,并且以其平滑后的图像作为初始图像,提高了分类精度。实验结果表明,使用基于锚点建图的半监督分类算法,使直推式的基于图的半监督学习算法可以解决数据量相对较大的图像分类问题,并得到了较好的分类结果。