论文部分内容阅读
图像分类是计算机视觉研究领域的重要问题之一,其准确性直接影响着人们对图像资源的有效利用。人工智能算法在分类速度和准确性等方面都有效地提高了图像分类的效果,但图像的底层特征表达与上层语义之间存在的“语义鸿沟”,仍然是严重影响图像分类准确率的一个重要因素。主题模型的主题是视觉词汇与上层语义之间的媒介,是克服“语义鸿沟”的有效方法之一。以图像分类问题为研究背景,本文针对隐狄利克雷分配(latent Dirichlet allocation,LDA)模型忽略视觉词汇之间空间位置关系的不足开展研究,从不同方面研究和探索具有空间信息的结构化主题模型的构建方法。结合图像数据特点,所提出的模型增强了对图像的表达能力,进而提高了图像分类的准确率;同时结合当前流行的深度学习方法,在主题模型中引入了卷积神经网络的特征表示,增强了主题模型的表达能力。本文研究的主要内容和贡献包括以下几方面:(1)提出融合图像内相邻主题结构关系的主题模型。LDA模型忽略了视觉词汇的空间位置关系,影响了其对图像表达的准确性。作为生成式模型,主题可以理解为视觉对象的组成部件,因此,相邻视觉词汇由同一主题产生的概率较高。据此,本文提出融合相邻视觉词汇对应主题间依赖关系的主题模型。在其主题采样过程中,模型利用马尔可夫随机场(Markov random fields)描述相邻视觉词汇对应主题之间的结构关系。该方法使主题对于对象组成部件的表达更有效,增强了图像特征表达的准确性,从而提高了图像分类的准确率。该方法明确了主题模型的主题在图像分类问题上的表现形式,从理论和实验两方面论证了在图像分类问题上,主题是以中层特征的形式表示对象的组成部件。(2)提出基于卷积特征的主题模型。卷积神经网络的特征对图像的表达更准确,但要求输入图像必须转换为固定尺寸,这会造成对象的形变或信息缺失。为克服这一问题,同时有效利用卷积特征,本文提出以主题模型替换最后一层池化层的主题模型结构。该模型提取不固定尺寸图像的卷积特征,通过聚类形成视觉词汇,以主题模型分析图像,并以主题分布将图像表示成固定长度的特征。该模型有效地避免了因调整图像尺寸而造成的信息缺失和图像表达不准确的问题。同时,该模型以卷积特征学习视觉词汇,有效地提高了主题对于对象组成部件的表达能力,也为其它模型利用卷积特征提供了参考。因此,该模型从特征表达的有效性和图像信息的完整性两方面,提高了主题模型对于图像的表达能力以及对图像分类问题的处理能力。(3)提出融合多尺度区域结构关系的主题模型。融合相邻主题结构关系的主题模型在主题采样过程中考虑了相邻视觉词汇对应的主题之间的结构关系,但在一定尺度的局部区域内,其他视觉词汇对应的主题也会对当前主题采样产生一定的影响。针对这一问题,本文提出融合多尺度区域主题结构关系的主题模型。该模型通过空间金字塔方法对图像进行多尺度划分,以主题模型分析各尺度区域内主题与视觉词汇之间的关系,从而表达视觉词汇在不同尺度区域内的空间位置信息。该模型组合所有区域的主题分布作为特征来表达图像,有效地反映不同尺度的区域信息,避免小尺寸对象或对象部件等信息的缺失,同时减弱了单一尺度的区域划分造成的对象误拆分等问题的影响。此外,该模型针对不同尺度区域的特点,应用不同的主题模型分析区域特征,使其在应用过程中更灵活并易于扩展。(4)提出并行在线学习的主题模型。融合相邻主题结构关系的主题模型基于批量离线方式学习模型参数,对内存和数据形式有较高的要求,运行效率较低。因此,本文针对其参数学习方式开展研究,利用增量吉布斯采样(incremental Gibbs sampling)算法,提出在线学习模型和并行在线学习模型。在线学习模型从序列数据中初始化模型参数,利用重采样方法更新模型参数。并行在线学习模型是在线学习模型的扩展,实现初始主题分配的并行化,利用服务端的重采样过程实现全局参数的学习和更新。本文提出的两种模型有效地从序列数据中学习模型参数,不需要将所有数据加载到内存,降低了对系统内存的需求,尤其在系统内存无法满足批量学习方式时,可以有效地实现主题采样和参数学习。因此,本文提出的两种模型增强了对于较多数据的处理能力,提高了模型计算速度和参数学习的效率。综上所述,本文针对LDA模型忽略空间结构信息的问题,从不同方面提出了更符合图像分类实际问题的结构化主题模型:融合图像内相邻主题结构关系的主题模型和融合图像内多尺度区域主题结构关系的主题模型,提高了图像中主题分配的准确性和主题对于对象组成部件的表达能力。同时,针对融合相邻主题结构关系的主题模型的参数学习方式,提出具有在线学习和并行学习能力的主题模型,从而提高了模型参数学习的效率,降低了模型学习过程对于系统内存的需求。此外,本文提出结合卷积特征的主题模型结构,提高了主题对于对象部件表达的准确性,为主题模型在图像分类任务的应用提供了新的方向,也为进一步解决卷积神经网络调整图像尺寸的问题提供了新的思路。