论文部分内容阅读
如何让计算机按照人类理解的方式对海量图像数据进行高效地分类与管理,成为了图像理解领域中一个亟待解决的问题。场景分析与理解为图像的语义分类提供了可能,场景分类被明确认定为是图像语义分类中的一个关键课题。本文主要成果有:(1)提出一种基于局部熵加权特征融合的场景分类方法。鉴于不同的特征描述子适合描述不同类型的场景图像,本文针对两种局部特征描述子进行特征融合以增加场景图像特征描述的区分力。首先,通过计算图像的局部熵定量分析场景图像的复杂度,据此定义平坦度,并通过叠加场景类内每幅图像的平坦度获得该场景类的平坦度;其次,提取两种分别适用于描述区域平滑和区域变化的局部特征描述子,并分别进行图像直方图描述;然后,利用场景类图像的平坦度计算两种局部特征的权系数,并对两种基于独立的局部描述子形成的图像直方图描述加权融合,获得场景类图像的最佳描述;最后训练概率生成模型,完成场景分类任务。实验结果表明,该方法对于不同类型的图像特征描述具有一定的普适性。(2)提出一种基于超像素网格空间金字塔图像描述的场景分类方法。鉴于传统的词包模型图像描述方法忽略空间信息的缺点,本文采用上下文特征和空间金字塔图像描述来加入图像的空间信息。首先,构建多尺度上下文特征使其能够保证特征描述时加入局部空间结构信息;其次,对图像进行超像素网格分块,网格的分辨率由金字塔层数决定;然后,对各层次上超像素网格分块得到的各个图像子块依据视觉词典生成图像直方图描述,并按照一定的权重组合在一起形成整幅图像的直方图描述;最后,训练分类器,完成场景分类任务。本文采用的超像素网格分块,避免了图像中对象的强制分割,从而保证了子区域内对象语义的一致性。实验结果验证了场景分类过程中上下文信息和超像素网格分块的优越性。(3)提出一种基于局部约束线性编码特征映射方式的场景分类方法。提取图像的视觉特征并聚类生成视觉码本以后,依据码本进行视觉特征映射形成图像描述。本文提出一种基于最大求和合并法的局部约束线性编码方式特征映射方法,将前t个概率最大的码字进行线性加权取平均作为特征映射编码结果,并分析讨论t的取值对于场景分类性能的影响,并讨论了不同的码本长度与场景分类性能之间的关系。实验证明,该方法提高了特征码字之间的相关性和特征映射的鲁棒性,取得了较好的场景分类性能。