论文部分内容阅读
视觉对象分类是对一组视觉图像自动地进行对象分类或者判定某幅图像是否属于某个类别,定位并提取出图像中感兴趣的目标,这是计算机视觉和模式识别领域中一个热点难点问题,对图像内容理解、图像检索等有着重要的意义。由于在现实世界中图像是千变万化的,存在着视角、亮度、尺度等变化,且其数据量在与日俱增,使得传统的手工视觉对象提取非常困难。因而需要引入机器学习的方法,根据图像的底层视觉特征对其语义概念进行分类和学习,建立复杂的视觉对象分类模型。目前国内外通常使用图像的底层视觉特征如颜色、纹理、形状以及对象的空间关系等信息来表示图像的内容,但从计算机所表达出的视觉特征到图像的实际语义表达之间存在着巨大的“语义鸿沟”。本文的研究方向是视觉对象分类,主要针对在使用传统的机器学习方法时使用人工标记费时费力的缺点,以及在“Bag of Words”图像表示模型中存在的语义描述能力有限的缺点,对现有的多示例学习算法进行了改进。本文的主要研究内容如下:1.结合分割区域的多示例学习。该算法是在MILES算法的基础上,与结合分割进行多示例学习并进行目标检测与提取。该方法在“Bag of Words”图像表示模型的基础上,将一副图像看作一个包,表示该图像的若干视觉单词作为包中示例,并把视觉单词辞典作为特征空间,通过对包中示例个数统计将其映射到特征空间中,考虑到1-norm SVM具有较好的稀疏性,随后用其来挑选重要特征的同时对图像进行分类;此后为了实现目标的提取,需要对判定为正的图像进行示例判定,然后根据判定为正的示例所在位置作为相应的目标“种子”点,进一步与图像分割结果相结合,最终实现了目标提取。在Caltech 101标准图像集上进行实验的实验证明了该算法的有效性。2.基于视觉短语的多示例学习。针对“Bag of Words”图像表示模型中,视觉单词的产生过程仅采用无监督聚类方法,忽略了视觉单词相互之间的空间信息,导致其语义描述能力有限且区分性能弱等缺点,本章提出了一种高阶的视觉特征取代视觉单词,即通过视觉单词在空间中的空间相互关系构建具有语义区分能力的视觉短语,可以提高“Bag of Words”图像表示模型的准确性。鉴于传统的基于“Bag of Words”模型的分类方法性能容易受到图像中背景、遮挡、尺度变化明显等因素影响导致分类精度较低等问题,本文在视觉短语的基础上,结合多示例学习思想,提出了一种用于图像分类的多视觉短语学习方法,使最终的分类模型可以反映出图像类别的区域特性。在一些标准的图像测试集合Caltech 101和Scene 15进行实验,实验结果表明该算法的具有很好的分类性能,与现有算法相比分类准确率相对提高了约9%和7%左右。3.多核多示例学习。视觉对象往往需要多种特征来进行描述的,在采用一种特征的情况的下分类会不准确,考虑到多示例学习可以处理微弱标记的图像且分类精度较高,然而在多示例学习中,通常只可以用一个特征对示例进行描述。因而考虑采用多核的方法在多示例学习中引入多种特征。因而,提出了一个多核多示例学习框架,用于解决多示例情况下的多特征学习问题。该框架是在多示例的基础上,使用多种特征对示例进行描述,训练的同时学习各种特征的权重。该框架融合了多种特征的优点,且分类精度高。在标准的图像测试集合Caltech 101上进行了实验,实验结果表明该框架具有很好的分类性能。