论文部分内容阅读
数字图像的智能分析与理解是当前多媒体研究领域的热点和难点问题,图像分类是数字图像分析与理解中的一项最基本也是最重要的研究内容。图像分类根据图像的语义特点将图像划分为不同种类。它首先使用计算机视觉技术抽取图像的视觉特征作为图像的表达,然后借助机器学习的方法对图像进行分类。对图像分类的研究可以促进网络图像检索、智能视频监控、生物特征识别等众多实际应用的发展。虽然图像分类具有广阔的应用前景,但是当前对图像分类的研究还远远不能满足实际应用的需要,这是因为在图像分类中存在底层视觉描述与高层人类感知之间的语义鸿沟。在这个开放性的问题中起到关键作用的是分类系统判别能力的强弱。因此,本论文围绕图像分类中的判别性增强,开展了以下系统性的研究工作,取得了相关的研究成果:1)通过归纳总结当前最优秀的底层特征编码方法,提出使用图像表达中的两个基本元素——底层特征与视觉词包之间的关系来进行底层特征编码。考虑到底层特征与视觉词包的特性,本论文使用直接加性核映射的方式将它们分别映射到一个高维空间中,在该空间中使用向量差的方式描述底层特征与视觉词包之间的关系。本论文提出的方法更具一般性。研究结果表明,最后得到的底层特征编码响应与传统方法相比具有更强的判别性。在公开数据库上的图像分类的性能得到了提升。2)指出现有图像表达方法中存在的两个关键的局限性。为了降低图像可变性对分类性能的影响,本论文提出基于可变性分析对影响图像分类性能的潜在因子进行建模。同时,为了增强图像表达的判别性,本论文提出了一种判别式的图像表达框架,该框架基于偏最小二乘方法,将每幅图像表达成一个低维的特征向量。这极大地减轻了分类器的训练和特征的存储的负担。由于该框架结合了图像的类别标签,因此最终的图像表达在不同类别之间具有较强的判别性。在主流公开数据库上的实验结果验证了本论文方法的有效性。3)提出了一种在线判别式的参数化图像相似度度量学习算法。该算法结合当前最基本的图像表达框架,提出使用图像相似度成对约束的方法学习参数化的相似度度量。图像相似度成对约束将图像类别信息进行了编码,使得学习之后的同类别图像之间的相似度要大于不同类别之间图像之间的相似度,增强了相似度度量的判别性。同时,本论文提出的在线学习算法解决了基于成对约束而导致的大规模的学习问题。实验结果表明,本论文提出的算法取得了优异的分类性能,并且大幅度提升了传统离线算法的学习效率。4)针对图像分类中的分类器模型提出了一种全局和局部分类器训练方法。以监控场景中的运动目标为研究载体,本论文分析了多类分类的特征空间分布特性,并指出同时考虑输入空间的全局和局部特性进行分类器构造。本论文初始聚类和聚类优化的方法将输入空间划分成若干个不相交的子聚类。使用这些子聚类训练得到的全局分类器表达了输入空间的全局信息。在每个子聚类中训练得到的子分类器表达了输入空间的局部信息。本论文提出的训练模型能够处理输入空间复杂的数据分布。实验结果和实际应用系统分别证明了本论文方法的优越性和实用性。