论文部分内容阅读
摘要:图像场景分类(Scene Classification)是根据给定的一组语义类别对图像数据库进行自动标注,它为指导目标识别等更高层次的图像理解提供了有效的上下文语义信息。本文从认知心理学的角度出发,以“视觉词包建模—语义主题建模—场景语义分类”为路线展开研究。研究的难点在于如何使计算机能够从人的认知角度理解图像的语义信息,有效辨别图像场景类自身变化及各场景类之间的相似。围绕场景主题建模,最大程度地弥合图像低层特征和高层语义之间的语义鸿沟,本文取得以下研究成果:提出了一种基于类别约束的主题模型。该模型针对同类场景图像中层语义内容具有视觉相似的特点,建立类别约束学习机制捕获场景类的特定语义。依据该模型中场景类主题空间构建方法的不同,提出了场景类建模的两种方案。其中,CTS-LDA(基于类主题空间的潜在狄里克雷分布)采用等维主题集构建各类主题空间,便于扩展应用;ATS-LDA(自适应主题数的潜在狄里克雷分布)采用不等维主题集构建各场景类的主题空间,体现各类场景语义内容繁简变化程度。该模型通过比较各类模型下图像边缘分布,采用最大似然选择实现场景类判别,摆脱了现有方法必须使用分类器进行场景分类的限制。提出了一种学习和识别场景类别的主题模型。针对EM算法推导过程中可能存在的局部极值问题,根据狄雷克里参数的伪计数作用,采用两次变分推导估计模型参数。首先,推导出符合训练样本的通用主题先验分布,作为模型参数初值;然后对模型进行再次变分推导,估计各场景类主题先验分布。该模型的推导方式有利于实现增量学习。对于新增场景类,在原训练样本的通用主题先验参数基础上,该模型能够以增量方式学习新增类的类主题先验分布,呈现出较高的泛化能力。提出了一种具备空间语义的主题模型,从中间语义描述的共性和个性角度捕获视觉词语的共现信息。首先在原有视觉词包的基础上,该模型通过建立空间金字塔来保留与特征点相关的空间信息,实现了图像局部特征与全局特征的有效融合。然后从中间语义层次上联合考查通用主题的一般性和类主题的特殊性,该模型建立具备空间信息的语义主题空间,使图像语义主题表示具备更强的判别力。