视觉对象分类:多核多示例学习

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:WXH6165559
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉对象分类是对一组视觉图像自动地进行对象分类或者判定某幅图像是否属于某个类别,定位并提取出图像中感兴趣的目标,这是计算机视觉和模式识别领域中一个热点难点问题,对图像内容理解、图像检索等有着重要的意义。由于在现实世界中图像是千变万化的,存在着视角、亮度、尺度等变化,且其数据量在与日俱增,使得传统的手工视觉对象提取非常困难。因而需要引入机器学习的方法,根据图像的底层视觉特征对其语义概念进行分类和学习,建立复杂的视觉对象分类模型。目前国内外通常使用图像的底层视觉特征如颜色、纹理、形状以及对象的空间关系等信息来表示图像的内容,但从计算机所表达出的视觉特征到图像的实际语义表达之间存在着巨大的“语义鸿沟”。本文的研究方向是视觉对象分类,主要针对在使用传统的机器学习方法时使用人工标记费时费力的缺点,以及在“Bag of Words”图像表示模型中存在的语义描述能力有限的缺点,对现有的多示例学习算法进行了改进。本文的主要研究内容如下:1.结合分割区域的多示例学习。该算法是在MILES算法的基础上,与结合分割进行多示例学习并进行目标检测与提取。该方法在“Bag of Words”图像表示模型的基础上,将一副图像看作一个包,表示该图像的若干视觉单词作为包中示例,并把视觉单词辞典作为特征空间,通过对包中示例个数统计将其映射到特征空间中,考虑到1-norm SVM具有较好的稀疏性,随后用其来挑选重要特征的同时对图像进行分类;此后为了实现目标的提取,需要对判定为正的图像进行示例判定,然后根据判定为正的示例所在位置作为相应的目标“种子”点,进一步与图像分割结果相结合,最终实现了目标提取。在Caltech 101标准图像集上进行实验的实验证明了该算法的有效性。2.基于视觉短语的多示例学习。针对“Bag of Words”图像表示模型中,视觉单词的产生过程仅采用无监督聚类方法,忽略了视觉单词相互之间的空间信息,导致其语义描述能力有限且区分性能弱等缺点,本章提出了一种高阶的视觉特征取代视觉单词,即通过视觉单词在空间中的空间相互关系构建具有语义区分能力的视觉短语,可以提高“Bag of Words”图像表示模型的准确性。鉴于传统的基于“Bag of Words”模型的分类方法性能容易受到图像中背景、遮挡、尺度变化明显等因素影响导致分类精度较低等问题,本文在视觉短语的基础上,结合多示例学习思想,提出了一种用于图像分类的多视觉短语学习方法,使最终的分类模型可以反映出图像类别的区域特性。在一些标准的图像测试集合Caltech 101和Scene 15进行实验,实验结果表明该算法的具有很好的分类性能,与现有算法相比分类准确率相对提高了约9%和7%左右。3.多核多示例学习。视觉对象往往需要多种特征来进行描述的,在采用一种特征的情况的下分类会不准确,考虑到多示例学习可以处理微弱标记的图像且分类精度较高,然而在多示例学习中,通常只可以用一个特征对示例进行描述。因而考虑采用多核的方法在多示例学习中引入多种特征。因而,提出了一个多核多示例学习框架,用于解决多示例情况下的多特征学习问题。该框架是在多示例的基础上,使用多种特征对示例进行描述,训练的同时学习各种特征的权重。该框架融合了多种特征的优点,且分类精度高。在标准的图像测试集合Caltech 101上进行了实验,实验结果表明该框架具有很好的分类性能。
其他文献
基于交错正交幅度调制的滤波器组多载波(Filter Bank Multicarrier with Offset Quadrature Amplitude Modulation,OQAM/FBMC)系统由于其每个子载波都引入了时频聚焦特性良好
随着城市建筑规模变大,内部结构复杂化,在室内活动中准确的到达一个陌生建筑的指定位置变得越来越困难。这种情况严重影响着人们日常生活,比如参加会议时可能无法到达指定会议室
随着IT业的高速发展,对大型云服务的需求不断提升,大量数据的计算、处理、存储已成为不可逆转的趋势。为了满足这些要求,数据中心规模不断扩大,能量消耗自然也成倍增长。巨大
随着视频监控系统的广泛应用,视频监控技术的研究越来越受到关注。运动目标识别作为视频监控系统中图像序列处理的一项基本要求,已经成为研究的热点。它处理的对象是从视频采
无线传感器网络(Wireless sensor networks)是由大量资源受限的传感器节点组成,通过自组织方式形成的具有特定应用背景的网络。随着现代微电子技术、无线通信技术和网络技术
商标在日常生活中随处可见,它能够为标识物体的品牌提供丰富的信息,因此商标识别技术具有极高的实际应用价值,被广泛应用于电商平台上的品牌识别和商标非法使用的检测中。但是,自然场景下的商标识别也存在许多需要克服的问题,如剧烈的尺度变换,光照的影响,仿射形变以及部分遮挡商标的遮挡问题。其中,遮挡问题是具有挑战性的问题,在真实应用场景中,常常会出现商标没有完全落在镜头内,或者商标被其他物体遮挡了一部分的情况
随着无线通信技术的成熟,以应用为背景的无线传感器网络的研究得到快速发展,但现实环境中各种不可预料的影响因素或系统本身的错误,导致无线传感器网络实际部署后的行为有时会与
随着社会经济的高速发展,城市交通拥堵问题越来越引起人们的关注。目前大部分城市路口交通信号灯的控制,是交通部门通过对车流量的调查,统计汽车流量,确定红绿灯的变化时间。由于
随着信息通信技术的急速发展,以及国家信息化战略大力的推进,IP技术在我国进入了高速发展期,得益于此,我国的互联网技术也随之迅速跟新。随着网络技术的更新,电子商务、视频下载、
LTE小区搜索就是移动终端开机以后,首次取得与服务小区的时频同步及获取小区ID的过程。这是一个非常关键的过程,因为它是用户终端与基站建立通信链路的前提。只有与小区取得