基于主题模型和图核模型的图像分类算法的研究与应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:liuyunxiaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类技术是计算机视觉领域重要的研究内容。图像分类性能的优劣对医学图像研究、生物数据分析、军事交通研究有至关重要的意义。伴随着机器学习的热潮,图像分类技术得到了迅速发展并成为计算机视觉领域研究的热点。主题模型是机器学习领域新兴的算法,它的出现为图像分类研究开辟了新的天空。主题模型是一种概率生成模型,主要应用在对文本信息进行处理中。相对于其他分类算法,其优势在于对语义信息的挖掘上。Latent Dirichlet Allocation(LDA)模型是在Probabilistic Latent Semantic Analysis (PLSA)模型的基础上提出的一种广泛应用在文本信息分类的主题模型。该算法采用了词袋(bag of words)思想,视每篇文档为一个词频向量。一篇文档代表了一些主题所构成的概率分布,而每一个主题又代表了很多单词所构成的概率分布。LDA通过这种方式把文本信息转化为易于建模的数字信息并挖掘数据集潜在的语义信息。随着LDA模型的发展和改进,它已经成功地应用在图像分类、检索等领域。但是,LDA算法使用的词袋模型把图像看作无序的单词而忽略了图像的空间结构信息,图核是一种计算图结构之间相似性的模型。本文提取了图像的空间结构信息并结合了主题模型和图核模型,分别从语义信息和空间结构信息的角度对图像进行处理。通过对这两种模型进行研究我们发现其中还存在可改进之处。本文首先对LDA的词袋模型进行改进,提高其分类效果,同时提出了使用带权重的最小生成树图核进行图像分类,并对最小生成树图核进行了改进,最后结合了两个模型的优势并应用于图像分类中,主要工作如下:1)利用传统LDA模型进行图像分类研究。在对图像进行处理时,使用SIFT算法检测特征点形成词典、计算词频,并根据LDA思想进行分类。文中利用Gibbs采样对参数进行估计,通过训练出来的参数对新图像进行分类预测。其次文中对这种传统方法进行改进,加入图像的色彩信息,利用RGB SIFT算法检测特征点,形成了信息更为丰富的描述子。2)本文对图核模型进行研究,并应用在图像分类中。首先综合考虑了常用的几种核,根据其优劣性,提出使用最小生成树算法计算图像之间相似性。其次在计算图结构相似性时,对最小生成树核进行改进,考虑了图结构中节点的权重信息。在利用带权重的最小生成树图核进行分类时,我们首先利用RGB SIFT算法得到图像的视觉单词以及空间坐标信息,通过构建四叉树把图像表示为图结构的数据,根据图来生成最小生成树并计算图像之间的相似性。为了利用相似性矩阵对图像进行分类,我们使用训练集中的相似性矩阵及其所属的类别对支持向量机(Support Vector Machine)即SVM进行训练,得到相应的分类器。其中支持向量机的核函数使用了最小生成树核。通过对测试集数据的分类预测验证了改进模型的优越性。3)结合LDA模型和图核模型的优缺点,将两种方法进行结合,使用余弦相似性得到LDA模型中图像的相似矩阵,并与图核中的相似性矩阵以一定的权值进行结合,最后利用SVM对相似性矩阵进行处理,成功对图像进行分类。该课题充分考虑图像的色彩信息、语义信息、空间信息得到新的模型进行图像分类。文中通过实验表明了该模型分类的优越性,也证明了该方法的合理性,具有较强的应用价值。
其他文献
随着网络的普及,信息时代的到来,人们日常生活所面临的数据已经非常巨大,如何围绕这些数据建立数据仓库、进行数据挖掘和数据分析正逐步成为数据处理的主题。如何快速准确分
随着信息社会的不断发展,军人接触互联网的机会已大大增加,军人在网络上的活动日益频繁。部分现役和退伍军人喜欢在一些网络论坛和社交网站(如QQ,人人网等)中上传自己的军装照片,
自2006年Google提出云计算概念以来,云计算从备受业界质疑的概念炒作成为如今越来越成熟的技术服务形态。在云计算提供的众多服务类型里,存储服务成为我们最为直接使用的一种
图数据是许多计算、科学和工程领域中经常采用的数据结构,图操作则是构建这些领域中许多应用的基石。一直以来,设计高效的图算法就是数学与计算机科学的重要研究内容。随着算
云计算(Cloud computing)已成为了IT界的热门技术,甚至被视为将改变人们生活方式和商业模式的革命性技术。云计算可以被视为网络计算和虚拟化技术的融合:即利用网络分布式计算
为了方便快捷的采集物理环境中的有效信息,无线传感器网络(Wireless Sensor Networks, WSNs)已被人们广泛地应用于生产生活的各个方面,如环境监测、工业和农业控制以及国防军
航班正点率是航空运输服务的重要评价标准,每当进入冬季后,冰雪天气导致航班大量的航班延误,不仅给机场和航空公司带来经济上的损失,而且严重影响机场以及航空公司的声誉,机
随着新一代基因测序技术的飞速发展,以及单体型数据在人类遗传学等领域研究和应用的不断深入,对单体型数据的研究开始转向其他生物物种。由于测序技术的限制,通过生物学实验
在军事末端制导、遥感图像融合,医学影像诊断等领域,多传感器技术都体现出了重要的应用价值。随着传感器成像技术的快速发展,单一传感器已经无法满足实际应用的需求。作为多
粒子沉降运动在自然界中是一种很常见的现象,而且这一运动现象也广泛存在于众多领域中,例如工业应用、生命科学、环境科学和医学科学等。因此,近年来对粒子沉降这一现象的研究引