论文部分内容阅读
场景分类是计算机视觉场景理解中的经典研究课题,其研究成果可以直接应对大规模的场景照片分类。本课题着眼于基于中层特征的场景分类,中层特征相比于底层特征,更容易上升到语义层面且具有鲁棒性;相比于高层特征,中层特征不需要预先标记,可以独立进行无监督学习,节省人力标记。现有基于中层特征的词袋模型分成五个步骤进行处理:图像分割;图像块特征提取;视觉词字典学习;池化表达;支持向量机分类。针对采用中层特征词袋模型目前各部分存在的问题进行了研究,本课题具体研究内容如下:一、采用卷积神经网络(Convolutional Neural Networks,CNN)深度特征作为中层特征的提取方法。引入预训练CNN网络提取特征,测试了多种尺寸滑动窗口,在合适尺寸的滑窗上提取CNN深度特征后采用空间金字塔(Spatial PyramidMatching,SPM)池化表达直接分类,这样简单的方法即可将MIT室内数据集分类准确率提升到75.86%,超过了近年来的多种算法的分类准确率。验证了 CNN深度特征作为中层特征的巨大潜力,后文均采用CNN深度特征进行。二、采用似物检测进行图像分割,并提出新型的K-Means聚类的方法。似物检测分割得到的图像块相比滑动窗口语义明确,传统提取上千个块用于物体检测,本文只采用最具有物体属性的图像块取代滑动窗口。字典学习环节,传统K-Means聚类方法并不能应对大规模场景分类,因此根据阈值先选出具有代表性的聚类,再根据线性判别距离选取出具有鉴别性的聚类,经过筛选的聚类作为字典。似物检测图像块提取CNN深度特征,并采用该字典表达的最终结果为76.49%。三、提出使用Apriori模式挖掘进行字典学习及新型的池化方法。CNN深度特征具有响应集中的特点,便于事务集生成,无缝联合模式挖掘进行字典学习。由于挖掘出的模式具有天然的随机性,对于生成的模式“通过检测代替分类”的思路进行启发式合并,最终生成视觉词字典。池化环节,首次提出针对似物检测的顺序最大值池化方法,充分利用似物检测的物体属性排序,分组进行最大值池化,提升幅度大于SPM。似物检测图像块提取CNN深度特征,并采用该视觉词字典表达后用顺序最大值池化的最终结果为78.28%,同时也是本课题最佳结果。本课题在传统基于中层特征的词袋模型的各模块中提出改进,包括一种图像分割方法,通过似物检测得到图像块;两种CNN深度特征的字典学习方法,K-Means聚类和Apriori模式挖掘;一种针对似物检测的顺序最大值池化方法。似物检测和顺序最大值池化的结合效果优异,可以适配其他的字典学习方法。