论文部分内容阅读
视觉物体表示(visual object representation)是联系底层图像信息和高层语义概念之间的纽带,在物体识别、图像检索等计算机视觉任务中起着关键性的作用。基于鲁棒性局部图像特征的词包(Bag-of-Words)图像表示方法具有表示能力强、对图像遮挡和背景混淆较为鲁棒的特点,近年来引起学者们的高度重视。然而,这种模型的不足在于:一是图像在转化为“视觉单词”的过程中,忽略了特征与特征之间的空间关系而导致特征间语义信息的丢失;二是由于图像底层特征与高层语义之间存在的鸿沟,事实上,不同的外观属性所提取的特征可能在高层语义概念层次上是相关的,忽略这些语义信息使得仅仅基于底层特征的视觉词典难以有效地分类图像。
本文针对这些不足,提出了一个从“视觉单词”到“视觉词组”的图像表示框架:(1)我们通过保持更多的底层图像信息,生成更具表达力的高质量“视觉单词”;(2)聚类语义相似的“视觉单词”以构成稳定的“视觉词组”。
提出了一种高质量的“视觉单词”图像表示模型。在图像到“视觉单词”这一过程中,我们首先对同一图像进行多特征检测子采集大量的兴趣点,以获取尽可能表示图像信息的不同特征,然后对提取出来的特征采用X-means聚类语义相关的特征,在获得语义信息的同时,消除图像中的噪音特征点,获得能反映出图像精准信息的代表特征点,从而生成更具表达力的高质量“视觉单词”。
提出了一种基于语义局部自适应聚类算法(Sem-LAC)的“视觉词组”表示模型。利用Sem-LAC算法,在图中聚类语义相似的“视觉单词”以构成稳定“视觉词组”。由此构成的“视觉词组”可以解决不同视觉外观可能在高层语义的相似问题,且较单个“视觉单词”具有更高的可区分性。
根据本文所提出的图像表示框架,我们分别给出了具体的解决方案,并将这些方案应用于物体识别的图像分类问题上,通过实验验证了它们的合理性及有效性。