真实世界环境下的自动图像标注方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：luobo330

【摘要】

：

随着多媒体影像技术和存储技术的快速发展,互联网上图像信息呈爆炸性增长。视觉图像信息与文本信息相比,更加生动、易于理解。这些数字图像的应用非常广泛,如商业、新闻媒体

【作者】

：

芮晓光

【出处】

：

中国科学技术大学

【发表日期】

：

2010年期

【关键词】

：

图像标注大规模学习算法图像标注改善图像检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着多媒体影像技术和存储技术的快速发展,互联网上图像信息呈爆炸性增长。视觉图像信息与文本信息相比,更加生动、易于理解。这些数字图像的应用非常广泛,如商业、新闻媒体、医学、教育等方面。因此,如何帮助用户快速、准确地找到需要的图像成为近年来多媒体研究的热点课题之一。而解决这一课题最重要的技术就是自动图像标注技术。但是,传统的自动图像标注研究主要在受限环境下进行的,例如只是针对人工收集的小规模图像数据库,基本没有考虑真实世界环境下的图像标注问题。这造成了一些传统自动图像标注方法在实际应用中遇到了很多问题,如图像标注性能不高,用户对图像标注的感受不好,无法处理大量的语义概念等等。因此,研究传统自动图像标注方法在真实世界环境下的推广,以及针对传统方法的不足研究真实世界环境下的新的自动图像标注方法,都具有重要的意义。本论文尝试研究真实世界环境下自动图像标注的关键问题。论文对大规模图像标注学习算法、网络图像标注、多语言环境下的图像标注和图像标注改善等问题进行了深入地研究。另外,我们设计了基于提出的真实世界环境下图像标注算法的图像检索演示系统,并研究了图像表示和图像检索排序问题,实现了真实世界环境下大规模图像数据库快速有效地检索。本文主要成果和创新之处包括以下几个方面：1.提出了一种基于大规模距离尺度学习算法的自动图像标注方法。首先,提出了一种区分性距离尺度学习算法。该算法通过保存数据集的局部非线性结构和利用数据的区分性信息来学习马氏距离尺度,可以改善基于K近邻方法的自动图像标注算法的性能。然后,提出了一种集成的距离尺度学习算法,使得区分性距离尺度学习算法可以通过并行或者在线的方式实现有效地训练,从而可以处理大规模数据。实验表明,集成距离尺度学习算法不仅可以提高图像标注性能,也可以大大降低标注模型的学习时间。2.提出了一种基于集成思想的大规模支持向量机算法实现了图像的自动标注。支持向量机是自动图像标注的常用方法。通过首先在数据子集上分别学习然后集成的思想,实现了大规模支持向量机算法。该算法可以大大提高原有支持向量机算法的可扩展性。实验表明,与常见的支持向量机算法相比,集成支持向量机算法在基本不损失性能的情况下,可以在较短时间内处理百万级的训练数据。3.提出了一种基于二部图加强模型的网络图像自动标注算法。如何利用网络图像的己有文本信息来帮助图像标注是网络图像标注的关键。提出的算法可以从网络图像的已有文本中提取若干单词作为候选标注,然后利用大规模图像数据扩展出更多标注,并将所有标注建模成一个二部图模型。通过在二部图模型上的加强学习算法,可以重排序已有图像标注。实验结果表明,提出的算法可以大大提高网络图像原有标注的性能。4.提出了一种基于统计模型的图像标注方法。通过对大规模的网络图像数据集的聚类和统计建模,实现对个人图像和网络图像快速有效地标注。实验表明,提出的算法与现有算法相比,不仅提高了标注性能,而且大大提高了图像标注速度,速度可达每秒20幅图像。5.提出了一种跨语言图像自动标注框架。该框架可以利用大规模的多语言网络图像数据集作为训练集,并根据用户的母语自动提供多语言的图像标注结果。该框架提出了一种同时对标注排序和翻译的多语言标注融合的算法MAF。MAF将候选标注建模成一个n-部图模型,然后通过迭代算法提高了多语言标注的性能和翻译效果。实验结果表明,跨语言图像标注框架可以提高标注性能,并且能给用户提供多语言的标注结果。6.提出一种基于优化模型的图像标注改善算法,并给出基于该算法的统一的图像标注框架。提出的算法同时使用了标注先验知识和标注间局部语义相关性信息,并将图像标注改善问题建模成一个0-1整数规划问题实现无参数的图像标注改善。并且,它可以通过半正定优化算法实现了快速求解。与以前的方法相比,它可以直接确定最终标注,无需任何经验(设定阈值)。实验结果表明了算法的有效性。7.提出了基于空间关系的图像视觉表示方法和考虑图像质量和重要性的图像静态排序算法。结合提出的自动图像标注算法,设计并实现了一个基于大规模数据库的实时图像检索演示系统。总之,论文对真实世界环境下自动图像标注的研究,有助于理解图像与概念之间的深层联系,帮助实现视觉信息的统一表示模型,对多媒体领域的研究具有较大的意义,对探索和发展大规模学习理论也具有一定的借鉴意义。

其他文献

基于能值理论的唐山市农业生态系统评价

农业生态系统是人类赖以生存的基本系统。为更好地评价区域农业生态系统的运行状况和变化特点,了解区域资源、环境和经济间的关系,选取唐山农业生态系统为研究对象,基于能值

期刊

农业生态系统能值理论可持续性发展唐山市

三坐标机与立体视觉的系统集成与信息融合的关键技术研究

在逆向工程中,自由曲线曲面的测量一直以来是逆向工程的重要组成部分,受到众多学者的关注。计算机视觉与三坐标机是反求工程中不同的两种测量手段的代表,他们各具有自己的优

学位

三坐标机立体视觉信息融合B样条主动轮廓

中国西域的语言文化与翻译的关系

本文通过阐述西域语言文化的同源性、开放性、不可分割性与融合性以及西域翻译的民族特性、区域特性 ,突出了祖国与新疆不可分割之内涵 ,指出了西域语言文化与翻译可译性与不

期刊

同源性不可分割性融合性民族特性区域特性可译性不可译性绝对等值相对等值

提高泵和压缩机中的圆锥滚子轴承的承载能力

因为圆锥滚子轴承可以适应其装用场合的载荷条件和安装空间，所以这种轴承能在提高整套系统的承载能力方面作出决定性的贡献。作者就优化的观点研究了圆锥滚子轴承的各个结构要

期刊

圆锥滚子轴承压缩机承载能力

天水市劳动人口就业形势分析

劳动就业形势分析可以为改善劳动力结构及分布提供依据.本文就天水市劳动就业的基本情况对天水市劳动人口的数量、质量、行业分布及三次产业分布进行了就业的变化分析.

期刊

劳动人口就业

古驿站的“糠灯”

糠灯"是清代东北地区驿站负责驿站值守的站丁唯一的照明工具,也是原住民族寻常百姓家度过漫漫长夜的生活必需品。现通过对糠灯的出现至消亡的整个过程的阐述,清晰地反映了"糠

期刊

驿站糠灯作用

稳定态纳米零价铁-厌氧菌联合处理法降解2,4,6-三氯苯酚

利用SEM、XRD、FTIR等手段对稳定态纳米零价铁（NH2-SiO2@NZVI）进行表征，并考察NH2-SiO2@NZVI-厌氧菌体系对2，4，6-三氯苯酚（2，4，6-TCP）的降解效果。实验结果表明：NH2-SiO2@NZVI具有较强

期刊

稳定态纳米零价铁246-三氯苯酚表面修饰厌氧处理

短语消息聚类相关技术研究

随着互联网和通信技术的发展,Instant Messaging、Internet Relay Chat等即时通信工具得到广泛普及和应用。这些即时通信工具往往产生大量的、用于人们交流和通信的交互性短

学位

短语消息合成会话文本相似度文本聚类并行算法

用问题优化小学数学课堂互动的有效策略

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

小学数学问题优化课堂互动优化措施

真实世界环境下的自动图像标注方法研究

其他学术论文