视觉词袋模型架构下的图像分类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wjhjordanaaaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类是计算机视觉研究的重要分支,其目的是根据图像包含的视觉信息,将图像划分到其所属的特定语义类别。图像分类研究能够实现对图像内容的自动理解,是实现图像语义内容自动提取的重要途径,也是解决从图像信息到人类语义之间“语义鸿沟”的主要手段。近十年来,视觉词袋模型架构下的图像分类算法取得了很大的成功,但仍然存在一些需要解决的难题:1)视觉字典的最佳表示方式至今没有公论,不同的字典构造方法会影响图像分类的性能;2)图像特征的选择、图像特征提取时的采样策略、特征编码方式等因素都会对分类性能产生较大的影响;3)随着电子设备与互联网的普及,图像数据越来越丰富,数据规模越来越庞大,在图像分类任务中亟需计算效率高、存储代价小、分类准确度高的算法。针对上述难题,提出了下列图像分类算法。具体研究工作与创新点如下:  1.鉴于K均值聚类算法的聚类结果易受初始化过程影响,通过分析K均值聚类算法现有初始化过程的不足,提出了基于数据内在空间局部密度关系的K均值初始化框架AIF-SLI。该框架在数据局部密度高的区域内选取初始聚类中心,并确保选取的初始聚类中心保持一定的距离,从而避免选取噪声点或离群点。由于很难给数据密度准确定义,给出了基于t-近邻和基于∈-邻域的两个AIF-SLI框架近似实现算法。实验表明,提出的AIF-SLI框架具有:1)能够高效地找到满足初始聚类中心要求的数据样本;2)有效地减少K均值的迭代次数;3)对噪声数据鲁棒;4)易于实现等优点。在图像分类实验中,AIF-SLI框架能够获取更具有判别性的视觉字典,提高图像分类准确度。通过进一步延伸,提出的AIF-SLI初始化框架可扩展为一般性的聚类算法,而不必拘泥于为K均值或其他聚类算法。  2.鉴于不同尺度的特征编码揭示图像不同方面的视觉属性,提出了一种多分辨率特征编码方法。多分辨率特征编码以自适应加权的方式组合多个小规模视觉字典下的特征编码,从不同的分辨率角度获取图像的视觉信息,使其达到与单一大规模视觉字典下特征编码具有相同甚至更高的图像分类准确度,但计算复杂度更低且对存储空间的需求更少。为实现自适应组合,提出了一种改进的OPA(Online Passive-Aggressive)算法来获取不同分辨率下特征编码加权权值,并推导出求解加权权值系数的闭式解。同时,提出的多分辨率特征编码方法可轻易地扩展到其它特征编码策略,如软编码和稀疏编码等。实验表明,使用相同的字典构造和特征编码方式时,提出的多分辨率特征编码方法:1)能够获得与大尺度字典的视觉词袋模型算法相同甚至更高的图像分类准确度;2)处理相同规模的图像数据所需计算时间更短,消耗的存储空间更少。  3.鉴于多核学习算法的高计算复杂度,以及当前图像分类的高效率需求,提出了两个多视觉特征自主加权组合算法:基于中心化核配准和基于改进OPA的加权权值学习算法。提出的两个算法在模型训练阶段预先依据视觉特征与图像类别之间的相互关系赋予恰当的权值,减少了多特征组合的计算复杂度。与多核学习算法相比,基于中心化核配准和基于改进OPA的加权权值学习算法在保持图像分类准确度非常接近的情况下,所需的计算时间分别只有多核学习算法的20%左右和10%左右。实验结果证实提出的两个算法在满足确保图像分类准确度的同时,提高了多特征组合的执行效率,降低了基于核的机器学习算法计算复杂度。  综上所述,通过对视觉词袋模型架构的视觉字典构造、图像特征编码以及模型训练等方面深入研究,提出了上述若干图像分类算法及实现。同时,设计了一系列验证实验证实:在公认的图像分类数据集上,与当前主流的图像分类算法相比,提出的算法获得了更高的分类准确度,更低的计算复杂度和更少的存储空间。
其他文献
在网络化制造模式下,企业联盟通常根据市场需要,因某个特定的项目而动态形成,并且随着项目的结束而结束。因此,项目管理技术对网络化制造的成效具有重要的作用。虽然项目管理技术
本文对通用的人脸检测算法进行研究,提出了一种融合使用灰度、梯度和肤色信息的人脸检测方法。在Viola-Jones的检测方法中,使用了类Haar特征描述人脸模式的灰度差规则,用AdaB
细分方法是近些年几何造型领域最活跃的研究热点之一:细分曲面连续性分析理论逐渐完善;新的细分模式不断涌现;细分技术被广泛应用于三维模型的多分辨率表示、计算机动画、数
视频点播系统依托音视频数据压缩技术和流媒体传输控制技术,利用网络为用户提供节目点播服务,实现了节目的按需收看和任意播放,为用户提供了极大的灵活性。如何确保音视频实
随着全球科技的发展,世界网络化程度日益加深,互联网的普及导致信息量激增,对海量信息的数据挖掘已经引起了信息产业界的极大关注。聚类是数据挖掘的重要手段,然而现代计算机
互联网的普及和迅猛发展,传统的商业模式正经受着前所未有的冲击和影响,固定销售地点和销售时间的店铺式经营模式正日益被以信息流为主体的电子商务模式所取代。电子商务指的是
可重构计算技术是一个新兴的研究领域,是指在数字系统制造完成以后,其硬件结构可以根据需要重新配置的技术。可重构计算兼有通用处理器的灵活性和专用集成电路的高效率的双重
作为一种典型的攻击方式,缓冲区溢出攻击由于能够获取系统的最高控制权,危害巨大。为此,操作系统不断引入新的安全防护机制,如数据执行保护(DEP)和地址空间分布随机化(ASLR)
网上购书是利用现代化信息网络进行商务活动的一种重要手段之一,用户通过流览器登陆到系统进行在线购书,整个过程方便、快捷,与传统店面书店相比,网上购书的市场规模和经营模式突
随着多核技术的迅猛发展和多核处理器的迅速普及,计算机的并行处理能力日益增强。为了充分利用硬件效能,程序设计者已经把多线程程序设计作为主要编程范型。线程间同步以及线程