论文部分内容阅读
图像特征表示是计算机视觉、人工智能等学科的基础性研究课题,对其涉及到的相关问题的研究,不仅具有重要的理论意义,而且在图像分类、目标检测、目标跟踪、图像检索等领域也有着广泛的应用前景,然而图像二值特征表示的鲁棒性以及卷积神经网络的泛化能力都有待进一步提高。 本文主要从图像的特征表示出发,将图像矩应用于图像的局部二值特征描述与卷积神经网络的池化操作中,同时将基于矩特征的神经网络特征与基于栈自编码器的分类器结合起来提高图像分类系统的准确率。根据目前图像特征表示技术的发展现状,本文以提高图像特征的判别性和鲁棒性为目标,主要做了以下三个方面的工作。 1.将图像矩特征中的矩心概念用于二值特征表示,以提高二值特征的特征表达能力,提出二值特征LNGM(Local Normed Gradient and Moment Information)。LNGM将灰度域(灰度信息)和空间域(像素局部坐标系)结合起来用以获取高判别性。首先将灰度信息根据灰度排序划分为若干个子区域,子区域用于聚合底层特征。因此对空间信息和灰度间的相对大小关系都进行了编码。LNGM采用中心矩和一阶梯度编码子区域所表示区域中的所有像素,以提高二值特征对图像局部变换的适应性。除此之外,由于特征旋转不变性以非常大的程度依赖于主方向预估的正确性,因此LNGM采用一种内在的具有旋转不变性的梯度计算方法,该方法使用局部坐标系计算梯度,而不需要提前估计主方向。为了进一步提高特征的判别性,LNGM采用多尺度策略,将多个尺度的二值特征连接起来作为最终整个局部区域的特征表示。 2.将图像矩用于卷积神经网络的池化层,提高卷积神经网络的泛化能力,提出矩池化方法(Moment Pooling)。 矩池化将图像矩概念引入卷积神经网络的池化过程中,首先计算池化区域的矩心,然后根据类插值法依概率随机地从矩心的四个邻域选择响应值。这样不仅可以保留图片的高频分量,而且它的随机性有效地预防了过抑合现象。更重要的是,矩池化的无参性不会增加训练复杂度,因此不会影响训练速度。 3.构建基于图像矩的卷积神经网络和基于栈自编码器的分类系统,提高分类系统的准确率,提出分类系统SACF(Stacked Autoencoder on ConvolutionalFeature Maps)。 传统的分类系统是先预训练深度卷积神经网络提取图片特征,然而微调MLP(Multi-layer Perception)分类图片。然而这种分类系统的主要贡献在预训练的深度神经网络(ConvNets),而ConvNets的网络结构的研究已进行瓶颈期。因此寻找更好的分类系统将成为下一个趋势,我们使用栈自编码器(StackedAutoencoder)分类图片,以提高分类系统的准确率。