图像检索中的特征表示模型和多信息源融合方式的研究

被引量 : 16次 | 上传用户：whitesharke

【摘要】

：

多媒体信息在人们的日常生活中起着越来越重要的作用。因而,如何在浩如烟海的多媒体数据库中快速、高效地检索到所需要的图像已成为一个非常有意义且具有挑战性的课题。本文

【作者】

：

陆文婷

【发表日期】

：

2012年01期

【关键词】

：

图像检索信息融合图像特征表示迁移学习词袋模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多媒体信息在人们的日常生活中起着越来越重要的作用。因而,如何在浩如烟海的多媒体数据库中快速、高效地检索到所需要的图像已成为一个非常有意义且具有挑战性的课题。本文着重研究了图像检索中的特征表示模型和多信息源融合的方式。通常来讲,图像检索主要可以分为以下两类：基于文本的图像检索和基于内容的图像检索。早期的图像检索系统大部分以基于文本的图像检索为主,该方法主要通过简单地匹配用户输入的关键词和数据库中图像相应的文本描述的方式搜索相关的图像。这种方法需要事先以文字信息的方式标注数据库中的每一幅图像,这是一个目前还有待于进一步解决的难题,而且文本标注的质量将会直接影响到后续图像检索精度。随后基于内容的图像检索逐渐得到发展,该方法从图像本身出发,直接提取图像的底层视觉特征,并对基于这些视觉特征建立索引,从而实现检索。本文首先重点研究了图像检索中图像的视觉特征表示方法。图像特征提取是图像检索中的关键步骤,如何从原始图像中提取具有较强表示能力的图像特征是图像检索技术的一个研究热点。目前用于表示图像的特征可以划分为底层视觉特征和高层语义特征。由于技术的限制,图像检索的特征一般是通过底层视觉特征来表达图像的高层语义。通常来讲,图像的底层视觉特征又可以分为全局特征和局部特征。与全局特征相比,大多数局部特征对图像的尺度缩放、旋转、仿射变换、光照变化等具有不变性,因此由局部特征来表示图像并建立相应的索引,可以取得比全局特征更准确的检索结果。其中SIFT特征因其卓越的性能和检测速度快的优点而被广泛使用,尤其是将SIFT特征与倒排文档技术(TF-IDF)相结合构成词袋模型(BoW)更是成为目前的主流方法。但原始BoW模型存在缺少空间信息和语义信息的不足的问题。为了缓解这一问题,本文深入探索BoW模型中视觉词汇之间的空间关系和语义关系,提出一个两级图像特征表示模型——短语袋模型,该模型不仅能够在BoW模型中增加空间信息,以及更好的表示图像所包含的语义信息,并且对于背景杂波也有一定的抑制作用。本文的另一个重点研究内容是图像检索中多信息源的融合方式,即如何通过结合网络中与图像相关的其他多媒体信息、,如文本、语音、视频等信息源,从而提高图像检索的性能。在多信息源融合方式的探索方面,鉴于聚类和分类是图像检索的关键步骤,对后续图像检索的精度和性能有较大程度的影响,本文首先探索了近年来5类比较典型并且被广泛接受的图像聚类/分类算法,包括2类单一信息源的算法：基于文本的图像聚类/分类和基于图像内容的图像聚类/分类,以及融合多种信息源的3类多视角学习算法：特征级融合、语义级融合和内核级融合,并在此基础上比较各种分类算法的性能。通过比较,本文得到了以下初步结论：基于单一信息源的两种算法由于所含的信息量有限,往往无法达到较高的正确率；一旦融合了多种可用的信息源,其性能会有较大幅度的提高。然而,上述三类多视角学习算法都是首先独立地处理多个信息源的数据,然后在三个不同级别上对多个信息源进行融合,共同之处是忽略了多种信息源之间的交互。因此,在本课题的研究中,本文首先探索了不同信息源(如文本信息和图像信息)之间进行相互指导和帮助的可行性,然后基于此提出了两种多视角的学习方法：动态加权和基于图像区域的语义概念融合,从而有效地融合了来自多种信息源的数据,提高网络图像聚类/分类的性能,达到更好的检索效果。为了进一步提高上述两种多视角学习方法处理大规模数据的性能,本文又提出了一种多媒体信息融合的框架,该框架通过分析不同网络图像的特殊性质有效地融合了上述两种多视角学习算法,能够以相对较少的计算时间获得较高的分类性能,从而较好地处理大规模的网络多媒体数据,还可以解决实际应用中最常见的某些网络图像缺失相应的文本描述的问题。除了研究上述问题,本文还进一步探索了网络图像与其相应的文本描述之间在语义层面上的“关联性”,并利用这种语义关联性增强图像分类的特征空间,本文将此过程称为迁移学习。该交叉域的迁移学习的方法可以通过未标注真实类别标签的网络多媒体数据完成有监督分类的学习任务。实验结果表明：通过迁移相关性知识,本文提出的基于交叉域相关性知识的分类方法不仅能够成功地将网络中多种相关的信息源有效地融合起来处理大规模的网络数据,而且可以较好地解决实际应用中部分多媒体目标对象存在的某种信息源缺失的问题。

其他文献

汉语命名实体识别研究

命名实体识别是指识别语言中人名、地名、组织机构名等命名实体。汉语命名实体识别作为汉语切分任务的延续,是中文信息处理领域的一个基础任务,被广泛且成功地应用于信息抽取

学位

命名实体识别二阶隐马尔可夫模型条件随机场主动学习实体资源库意图分析

商业银行后台差错处理系统的设计与实现

随着经济的快速发展,近年来,各商业银行在自助服务,如ATM、POS、网络银行服务、电话银行服务、移动支付服务等方面正在不断加大投入并迅速发展,服务的渠道和品种越来越丰富。

学位

差错调整平台后台差错处理系统电子化流程差错流水

疏经通督推拿法治疗缺血性脑卒中恢复期患者的临床研究

目的：本研究以缺血性脑卒中恢复期患者作为研究对象,运用生物力学、运动学技术及现代康复医学功能评估系统作为研究分析方法,评价疏经通督推拿对缺血性脑卒中患者运动功能的治

学位

脑卒中疏经通督推拿运动功能步态分析氧价

CDMA Femtocell系统组网应用方案设计及实现

移动无线网络的发展催生微微蜂窝解决方案,随着移动宽带流量密度的激增,需要的站点储备越来越多,传统宏基站存在站点难获取,难保留,高建设成本,高维护成本等挑战,单纯用传统

学位

移动无线网络Femtocell室内覆盖热点分流

《<中国日报>头版的版面风格研究》

《中国日报》自1981年创刊以来，已走过30年的历程。作为建国以来的第一份国家级英文日报，它也是我国目前唯一有效进入西方主流社会的英文报纸。近年，为不断适应时代发展和读者需

学位

中国日报头版版面风格新闻图片

区域一体化与安徽发展的关联思考

分析了长三角地区经济一体化和中部崛起对安徽发展的关联影响，并提出以下对策：加速融入长三角与中部伙伴关系构建．加强自主创新能力培育，以科技创新引领新型工业化发展；推进城镇化

期刊

区域一体化安徽发展关联思考

B型利钠肽对非ST段抬高急性冠脉综合征患者冠脉病变和危险分层的应用价值

背景：急性冠状动脉综合征(acute coronary syndrome, ACS)是一类非同质性疾病,包括不稳定型心绞痛(unstable angina, UA)、非ST段抬高心肌梗死(non-ST elevation myocardial i

学位

利钠肽脑急性冠状动脉综合征Gensini积分冠状动脉造影冠状动脉病变GRACE评分危险分层预后

从女性主义角度分析贾樟柯电影中的女性人物形象

贾樟柯作为“第六代”导演的代表人物,他通过真实性的创作手法记录下了长时间被社会所忽略、遗忘的生活在社会底层的小人物的生存状态和精神世界。女性主义于20世纪80年代引

学位

女性主义贾樟柯他者自我意识

高校女大学生主体意识培养的理论与实践研究

随着我国高校的不断扩招，高等教育已经变得大众化，女大学生的数量在逐年增加。女大学生作为未来社会的精英群体，解读和研究女大学生主体意识，不仅会影响女大学生个人未来的发展，更

学位

女性女大学生主体意识女大学生主体意识培养

一项基于数据驱动方法和自主学习模式下的大学英语词汇教学实证研究

作为语言学习中关键的一部分，词汇学习一直是英语学习者关注的焦点，同时也是大学英语学习中最薄弱的环节之一。长期以来，传统的词汇教学方法，即定义学习法广泛应用于词汇教学中。

学位

语料库数据驱动方法词汇学习自主学习

图像检索中的特征表示模型和多信息源融合方式的研究

其他学术论文