基于稀疏编码的半监督图像分类研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:chueri1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体技术的发展,使得每天都有海量图像数据不断产生。图像分类作为数据组织的一种基本方法,一直在研究领域备受关注。图像分类问题可以概括为两个大步骤:(a)首先就是要将视觉图像表示为数值信息,即图像表示;(b)然后针对所得的图像表示,选择合适的分类器进行训练,最终得到图像分类模型。图像分类的这两个步骤对分类的效果都有很重要的影响,两者是相辅相成的。本文从围绕图像分类的两大步骤,展开了对图像分类问题的研究。首先通过稀疏编码技术和空间金字塔匹配核模型进行图像表示。该方法将提取到的图像的SIFT特征作为训练数据,来进行过完备字典学习,然后运用稀疏编码技术,获得每个SIFT特征基于字典的稀疏编码重建系数,最后运用空间金字塔匹配模型得到图像的数值向量表示形式。基于该方法得到的图像表示,可以采用线性核分类器(比如线性支持向量机)进行分类,使得分类模型的训练复杂度为O(n),预测阶段的复杂度为常数级。采用传统的图像表示方法,只能采用非线性的SVM分类器才能达到较好的准确率,而非线性的SVM在训练阶段的计算复杂度和空间复杂度分别为O(n3)和O(n2),在预测阶段的计算复杂度为O(n)。这使得在实际应用中,数据量非常庞大的情况下,采用传统的高复杂度的分类器是不可行的。由于稀疏编码空间金字塔模型所得到的图像表示是高维空间中的稀疏向量,假设这些高维空间中的稀疏向量分布在一个低维流形上是合理的,基于这个假设,在分类阶段本文进一步引入了一种基于流形正则化的半监督学习方法。该方法将未标记数据的结构信息作为一个正则化项加入到传统的分类器中,在分类学习的过程中探索数据本来的结构,来提高分类器的性能。该方法在一定程度上解决了实际应用中标签数据不足,通过融入未标记数据信息来提高分类准确率的问题。另外在相同标签数据的情况下,该方法因为有效的融入了未标记数据的信息,从而能够获得更高的分类准确率。综合这两个步骤,本文最终给出了一种基于稀疏编码空间金字塔匹配(Sparse coding Spatial Pyramid Matching, ScSPM)模型的拉普拉斯支持向量机(Laplacian SVM, LapSVM)半监督图像分类方法。实验结果证明了该方法应用于图像分类问题的有效性。
其他文献
无线传感器网络(WSN)是由大量传感器节点以自组织方式组成的一个监控系统,可以对目标区域的信息进行实时地监控和处理,应用十分广泛。对于大多数WSN来说,未知节点所感知的信
随着计算机仿真技术和硬件设备性能的不断提高,红外图像仿真技术能够很好的生成各种不同气象条件、不同时刻和季节下目标和背景的红外图像,近年来得到迅速发展,并获得了广泛
步入信息化时代,中文信息处理成了重要研究领域。中文信息存在错综复杂的关系,相关是对多种关系的总称,范指任意两个对象之间存在的关联关系,相关度是对相关的定量表示。词语
随着城市现代化建设的快速发展,城市轨道交通正逐步全面进入网络化运营时代。在大幅提升交通运力和出行便利的同时,也给运营调度带来了新的问题和挑战。在网络化运营及“无缝
室内定位技术的研究已有二十多年历史,人们使用超声波、红外、射频识别等技术研发出各种不同的室内定位系统,针对不同应用环境得到不同的定位精度。但是,它们通常需要较为昂
量子计算具有许多优良的特性,如并行性、存储容量达指数级以及指数加速等,当今许多国家都对其进行研究,并把其列为本国重点研究的前沿学科。量子理论中定义的量子态的叠加、纠缠
对人脸图像的研究问题一直是数字图像处理、模式识别、计算机视觉等领域的热点之一。然而,受制于成像设备、传输带宽、环境干扰等硬件条件的限制与影响,获取的人脸图像的分辨率
医学图像分割是对正常组织和病变组织进行三维重建、定量分析等后续操作的基础和关键,并可为临床诊断和辅助治疗提供有力的支持。由于在核磁共振成像的过程中存在电子噪声、
随着计算机动画技术的不断发展,人们对三维虚拟模型情感表达的真实感提出了更高的需求,三维口型动画就是其中的一个重要部分。论文根据汉语协同发音规律对口型合成的影响,提出了
随着互联网的飞速发展和智能移动终端的广泛使用,移动互联网已经深入到社交、交通、购物、物流等社会生活多个方面。在众多移动互联网应用中,LBS(Location BasedServices,基于位