论文部分内容阅读
多媒体技术的发展,使得每天都有海量图像数据不断产生。图像分类作为数据组织的一种基本方法,一直在研究领域备受关注。图像分类问题可以概括为两个大步骤:(a)首先就是要将视觉图像表示为数值信息,即图像表示;(b)然后针对所得的图像表示,选择合适的分类器进行训练,最终得到图像分类模型。图像分类的这两个步骤对分类的效果都有很重要的影响,两者是相辅相成的。本文从围绕图像分类的两大步骤,展开了对图像分类问题的研究。首先通过稀疏编码技术和空间金字塔匹配核模型进行图像表示。该方法将提取到的图像的SIFT特征作为训练数据,来进行过完备字典学习,然后运用稀疏编码技术,获得每个SIFT特征基于字典的稀疏编码重建系数,最后运用空间金字塔匹配模型得到图像的数值向量表示形式。基于该方法得到的图像表示,可以采用线性核分类器(比如线性支持向量机)进行分类,使得分类模型的训练复杂度为O(n),预测阶段的复杂度为常数级。采用传统的图像表示方法,只能采用非线性的SVM分类器才能达到较好的准确率,而非线性的SVM在训练阶段的计算复杂度和空间复杂度分别为O(n3)和O(n2),在预测阶段的计算复杂度为O(n)。这使得在实际应用中,数据量非常庞大的情况下,采用传统的高复杂度的分类器是不可行的。由于稀疏编码空间金字塔模型所得到的图像表示是高维空间中的稀疏向量,假设这些高维空间中的稀疏向量分布在一个低维流形上是合理的,基于这个假设,在分类阶段本文进一步引入了一种基于流形正则化的半监督学习方法。该方法将未标记数据的结构信息作为一个正则化项加入到传统的分类器中,在分类学习的过程中探索数据本来的结构,来提高分类器的性能。该方法在一定程度上解决了实际应用中标签数据不足,通过融入未标记数据信息来提高分类准确率的问题。另外在相同标签数据的情况下,该方法因为有效的融入了未标记数据的信息,从而能够获得更高的分类准确率。综合这两个步骤,本文最终给出了一种基于稀疏编码空间金字塔匹配(Sparse coding Spatial Pyramid Matching, ScSPM)模型的拉普拉斯支持向量机(Laplacian SVM, LapSVM)半监督图像分类方法。实验结果证明了该方法应用于图像分类问题的有效性。