论文部分内容阅读
图像分类是计算机视觉研究的重要分支,其目的是根据图像包含的视觉信息,将图像划分到其所属的特定语义类别。图像分类研究能够实现对图像内容的自动理解,是实现图像语义内容自动提取的重要途径,也是解决从图像信息到人类语义之间“语义鸿沟”的主要手段。近十年来,视觉词袋模型架构下的图像分类算法取得了很大的成功,但仍然存在一些需要解决的难题:1)视觉字典的最佳表示方式至今没有公论,不同的字典构造方法会影响图像分类的性能;2)图像特征的选择、图像特征提取时的采样策略、特征编码方式等因素都会对分类性能产生较大的影响;3)随着电子设备与互联网的普及,图像数据越来越丰富,数据规模越来越庞大,在图像分类任务中亟需计算效率高、存储代价小、分类准确度高的算法。针对上述难题,提出了下列图像分类算法。具体研究工作与创新点如下: 1.鉴于K均值聚类算法的聚类结果易受初始化过程影响,通过分析K均值聚类算法现有初始化过程的不足,提出了基于数据内在空间局部密度关系的K均值初始化框架AIF-SLI。该框架在数据局部密度高的区域内选取初始聚类中心,并确保选取的初始聚类中心保持一定的距离,从而避免选取噪声点或离群点。由于很难给数据密度准确定义,给出了基于t-近邻和基于∈-邻域的两个AIF-SLI框架近似实现算法。实验表明,提出的AIF-SLI框架具有:1)能够高效地找到满足初始聚类中心要求的数据样本;2)有效地减少K均值的迭代次数;3)对噪声数据鲁棒;4)易于实现等优点。在图像分类实验中,AIF-SLI框架能够获取更具有判别性的视觉字典,提高图像分类准确度。通过进一步延伸,提出的AIF-SLI初始化框架可扩展为一般性的聚类算法,而不必拘泥于为K均值或其他聚类算法。 2.鉴于不同尺度的特征编码揭示图像不同方面的视觉属性,提出了一种多分辨率特征编码方法。多分辨率特征编码以自适应加权的方式组合多个小规模视觉字典下的特征编码,从不同的分辨率角度获取图像的视觉信息,使其达到与单一大规模视觉字典下特征编码具有相同甚至更高的图像分类准确度,但计算复杂度更低且对存储空间的需求更少。为实现自适应组合,提出了一种改进的OPA(Online Passive-Aggressive)算法来获取不同分辨率下特征编码加权权值,并推导出求解加权权值系数的闭式解。同时,提出的多分辨率特征编码方法可轻易地扩展到其它特征编码策略,如软编码和稀疏编码等。实验表明,使用相同的字典构造和特征编码方式时,提出的多分辨率特征编码方法:1)能够获得与大尺度字典的视觉词袋模型算法相同甚至更高的图像分类准确度;2)处理相同规模的图像数据所需计算时间更短,消耗的存储空间更少。 3.鉴于多核学习算法的高计算复杂度,以及当前图像分类的高效率需求,提出了两个多视觉特征自主加权组合算法:基于中心化核配准和基于改进OPA的加权权值学习算法。提出的两个算法在模型训练阶段预先依据视觉特征与图像类别之间的相互关系赋予恰当的权值,减少了多特征组合的计算复杂度。与多核学习算法相比,基于中心化核配准和基于改进OPA的加权权值学习算法在保持图像分类准确度非常接近的情况下,所需的计算时间分别只有多核学习算法的20%左右和10%左右。实验结果证实提出的两个算法在满足确保图像分类准确度的同时,提高了多特征组合的执行效率,降低了基于核的机器学习算法计算复杂度。 综上所述,通过对视觉词袋模型架构的视觉字典构造、图像特征编码以及模型训练等方面深入研究,提出了上述若干图像分类算法及实现。同时,设计了一系列验证实验证实:在公认的图像分类数据集上,与当前主流的图像分类算法相比,提出的算法获得了更高的分类准确度,更低的计算复杂度和更少的存储空间。