论文部分内容阅读
机器学习已经广泛应用到实际生活的各个领域。随着互联网的高速发展,每天有数以亿级的图像被上传,下载,给计算机视觉中的图像自动分类带来巨大的挑战。当今搜索引擎耗费大量的人力物力用于标注图像库中的图像的类别,在用户搜索某类图像时,将用户输入的关键字和图像的标注进行匹配,获得候选的图像集返回给用户。如果能够提高图像自动分类的准确率,由机器自动将图像库中的图像分类,当用户查询时,直接返回给用户该类别的图像,将节约大量的人力,同时大幅度提高工作效率。可以通过两种方式提高图像分类的准确率:(1)学习优秀的分类器,例如非线性SVM,复杂神经网络等等(2)学习优秀的特征,使用简单的分类器本文的工作主要通过学习鲁棒的图像特征表示来提高图像的分类准确率。稀疏编码和局部稀疏编码方法是非常有效的图像特征提取方法,不过它们是在直方图空间进行编码。直方图相交核(Histogram Intersection Kernel)是一种应用于图像处理的特定的核函数。该核函数将直方图特征映射到高维空间,实现特征的非线性映射。本文结合了局部稀疏编码和直方图相交核的优点,在直方图相交核的映射空间中,完成每个直方图的局部稀疏编码,然后生成整幅图像的编码,最后验证该方法的有效性。为了完成这个目的,我们需要:(1)提取图像的直方图特征,例如SIFT,HOG特征(2)使用EM算法学习直方图相交核对应的映射空间下的字典(3)优化带有线性约束的最小二乘问题,求解每个直方图在映射空间下的局部编码(4)使用池化和空间金字塔匹配方法形成图像的编码(5)使用线性分类器对形成的特征分类,比较和分析不同方法的实验结果实验表明,本文提出的方法能够显著提高图像分类的准确率。和传统局部稀疏编码(在直方图空间下)相比,本文的方法形成的图像特征更具有线性判别性,获得的分类准确率更高。