论文部分内容阅读
随着信息时代的到来,计算机成为了现代人类社会生活中必不可少的信息处理工具。由于现代通信技术的进步和互联网的普及,图像日渐成为人们日常生活中接触最多的信息载体。相比于传统的文字载体,图像作为信息载体具有明显的优势:直观性——图像能够直接反应现场的情景;全面性—-图像能够全面和细致的重现场景;通用性—-图像不受国界和语言的影响;便捷性—-图像中的内容更加便于理解。因此,运用计算机实现图像的自动分析和处理成为社会智能化发展的基础。与文字的处理不同,图像分析和处理的自动化具有更大的挑战性。首先,人们缺乏运用计算机实现图像处理和分析的认识:人类对于文字的使用和处理具有数千年的历史,积累了丰富的经验,而数字图像的出现和计算机科学的发展最多也只有一百年的历史。如何运用和发展计算机科学技术,充分把握图像的特点提取其蕴含的信息,始终是计算机视觉发展的目标和动力。其次,人们缺乏运用计算机实现图像处理和分析的方法指导:目前,人们主要借鉴人类图像认知系统的运行方式来实现图像分析与处理的自动化,但是,人类的图像认知系统经过了几百万年的进化,是一个非常复杂的系统,而计算机科学的发展历史与其相比只是沧海一粟。如何有效的把握人类图像认知系统的实质,将其用于图像处理将会是一个长期摆在计算机视觉发展道路上的难题。从现有的图像表示方法上来看,图像特征表示的提取主要来自于两个方面:模仿人类图像认知器官的图像内部结构提取方法—-特征描述子,以及模仿人类神经系统处理图像的方式—-浅层和深层学习。以图像分析的一个基本应用—-人脸识别系统的设计为背景,从浅层学习入手,运用线性重建的方式改进了人脸识别系统中的人脸对齐和图像表示。具体来说,贡献如下:(1)提出了一种新的流形学习方法,并将其应用于人脸对齐问题。目前,浅层学习方法通常假设样本的空间结构是线性的。这种方式虽然降低了数据处理的复杂度,但是数据间的拓扑结构却被忽视了。事实上,高维数据通常具有一定流形结构,最为明显的例子就是人脸形状向量空间。然而,人脸对齐的参数模型中,形状模型依然假设人脸形状空间是线性的。流形学习作为一种非线性嵌入方法,能够有效的将高维数据通过非线性降维嵌入到流形空间,从而得到线性结构的数据,但是需要估计数据流形空间的维度,因此计算复杂度较大而无法满足实时性要求。通过平滑局部子流形,在局部切空间排列的基础上提出了一种新的流形学习方法。由于其显式的投影矩阵以及在原空间中的流形变换,使得它能够很好的与人脸对齐方法中形状模型相结合,从而将人脸形状的流形结构嵌入到模型中去。(2)提出了一种改进的空间非负矩阵分解方法。基于线性重建的表示学习方法中,非负矩阵分解是一种专门针对图像数据的特征学习方法。与以往的表示方法相比,非负矩阵分解的基图像具有更好的局部结构,因此非负矩阵分解作为一种基于局部的表示学习方法,其学到的图像表示向量具有更好的鲁棒性和可理解性。为了进一步改进基图像的局部性,对于非负矩阵分解的改进目前主要集中将图像的空间信息嵌入到基图像中。然而,这些空间信息通常来自于图像的二维网络结构,因此缺乏与数据内容的联系。对此,根据因子分析对图像特征之间关系的提取,提出了一种结合数据特征分布与空间结构信息的空间正则化方法,并将其与大间隔约束相结合,不但实现了空间结构的嵌入,判别性与局部性的融合,还降低了判别性约束和局部性约束对数据表示产生的矛盾影响。(3)提出了一种新的属性特征。与传统的特征描述子抽取的特征相比,属性是一种更高层次的特征,它所概括的不是图像中蕴含的某种几何结构,而是图像中某种语义信息的体现度。由于这种特点,属性特征对于人类来说具有更好的解释性。然而,对于语义的定义各不相同,而且很多语义是相对抽象的概念,因此属性的学习通常非常复杂和不准确。具体来说,对于连续属性的学习,需要对每个属性分别提取相应的特征并学习各自的属性分类器,以分类器的输出作为每个属性在样本上的体现度。对于选取哪些属性作为样本的特征,哪些特征最能体现每个属性以及属性分类器的设计,都会在不同程度上影响样本的属性质量。于是,基于心理学中的原型理论,提出了一种类相对关系属性—-原型相对属性。其中,每个属性分别体现了样本与已知各类的相关度,而不必在属性池中搜索问题相关的属性,同时,每个属性都使用相同的特征表示样本,因此在一定程度上简化了属性学习过程。