基于语义分析与融合的图像分类与标注研究

被引量 : 12次 | 上传用户：lan_lang_

【摘要】

：

如何对互联网庞大的图像资源进行组织、检索和管理已成为当代多媒体技术的研究热点。图像分类与图像标注是解决这一问题的关键途径。尽管图像分类与标注技术在某些特定数据集

【作者】

：

王晓茹

【发表日期】

：

2015年01期

【关键词】

：

语义分析语义融合聚类集成视觉语法图像表达热点话题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如何对互联网庞大的图像资源进行组织、检索和管理已成为当代多媒体技术的研究热点。图像分类与图像标注是解决这一问题的关键途径。尽管图像分类与标注技术在某些特定数据集上取得了一定的进展,但在面临庞大的互联网数据时其性能下降得非常严重。要研发出真正鲁棒、实用的图像分类与标注系统需要解决如何跨越语义鸿沟问题,需要研究面向互联网大数据的分类与标注系统以及需要研究如何满足个性化、智能化的检索需求。论文重点研究了图像分类与标注中的上述关键科学问题。论文完成的主要工作和创新点如下：(1)针对已有的分割算法缺乏通用性,分割结果语义不完整性问题,提出了一种基于聚类集成的图像分割算法提出了一种基于聚类集成的图像分割算法(CE-IS),利用聚类集成算法将基于不同特征的子分割结果合并成最终的分割结果。CE-IS算法能够充分发挥每种特征在分割中的优势,对不同类型的图像均能提供稳定的分割质量；在子分割过程中,利用PageRank算法将图像中区域之间的语义相似性和空间布局信息融入到分割中。相比仅使用视觉特征相似性的分割方法,CE-IS算法能够有效地消除语义鸿沟所带来的影响,能够正确、完整地将语义对象从背景中分割出来,有效地提高了分割的精度。在Weizmann分割评估数据集上,相比Gpb、Mean Shift和N-Cut算法,本文提出的CE-IS算法在平均F测度指标上分别提升了15%、31%和37%,在平均碎片率指标上分别降低了32%、51%和44%；在BSDS500数据集上,相比Gpb,CE-IS算法在平均F测度指标上提升了8%,平均碎片率降低了26%；在Weizmann马类数据集和MSRC数据集上,相比Spatial-LTM算法,CE-IS算法在平均F测度指标上分别提升了29%和19%。CE-IS算法具有更好的通用性,更高的分割质量。(2)针对已有的对象检测算法在对象类建模时模型的整合能力和区分能力差,在检测时算法的计算复杂度高,检测效率低问题,提出了一种基于范例对象语义表达的对象检测算法提出了一种基于范例对象语义表达的对象检测算法(EOD)。在对象类的建模过程中,EOD算法利用多特征树生成范例对象,并以每个范例对象为坐标原点,构建了“范例对象-距离”特征空间。在新特征空间中,利用线性SVM为每个范例对象学习相似性评估分类器。EOD算法将这种相似性视为一种弱语义表达,全体范例对象的弱语义组合等同于将同类对象的多样性和异类对象的差异性信息共同编码到对象表达中,实现了基于语义的对象类表达；在检测过程中,为了避免对图像的所有位置进行穷举搜索,EOD算法采用了基于多特征聚类集成的分割算法产生检测窗口。由于分割算法充分利用了图像的结构信息,使得所产生的检测窗口与具体的对象类无关,避免了为每个对象类单独地生成检测窗口,有效地减少了检测窗口的数量；同时,EOD算法采用了自底向上的(Bottom-up)分割区域合并策略,利用合并过程中所产生的中间结果生成多尺度的检测区域,进一步确保了对目标对象位置的有效覆盖。在对象位置的生成质量比较上,相比DPM、SS-fast算法,本文提出的EOD算法在MABO指标上分别提升了4%和7%,而生成的检测窗口数量仅为DPM、SS-fast算法的0.06%和56%；在对象检测性能比较上,相比DPM、SS-fast算法,EOD算法在平均查准率指标上分别提升了42%和18%。EOD算法在大幅度减少检测窗口数量提高检测效率的同时,通过有效的对象表达方式显著地提高了对象识别的正确率。(3)针对已有的图像分类算法无法有效地提取和表达图像场景语义问题,提出了一种基于对象库语义表达的新型图像分类算法提出了一种基于对象库语义表达的图像分类算法(EODB-N-gram)。EODB-N-gram算法的核心是利用所构建的EODB-N-gram对象库提取图像的场景语义,并基于图像的场景语义表达训练分类器。EODB-N-gram对象库由对象检测子和N元对象组(N-gram)构成。在图像的语义建模过程中,EODB-N-gram算法利用对象检测子提取图像的视觉内容；基于这些视觉内容,EODB-N-gram算法利用对象间的视觉共生关系和视觉语法规则构建N元对象组,并通过N元对象组对图像中对象之间的空间布局关系进行建模,提取图像的场景语义；利用这些语义信息进行分类器学习,实现了基于语义的图像分类。在Scene-15数据集上,相比KSPM、OB和WSR-EC算法,本文提出的EODB-N-gram算法在平均正确率指标上分别提升了16%、10%和9%；在MIT Indoor数据集上,相比OB和WSR-EC算法,EODB-N-gram算法在平均正确率指标上分别提升了36%和32%。在Caltech-256数据集上,相比OB和WSR-EC算法,EODB-N-gram算法在平均正确率指标上分别提升了41%和31%。这种融合了场景语义的图像表达算法能够有效地消除传统分类中存在的语义鸿沟问题,显著地提高了分类的质量。(4)针对已有的图像标注算法缺少对高层语义建模的方法,训练集无法动态更新问题,提出了基于网络热点话题的图像高层语义标注算法提出了一种基于网络热点话题的图像高层语义标注算法(HLIA)。HLIA算法包括两个独立的子任务：基于网络热点话题的训练集动态更新子任务和基于搜索机制的图像标注子任务。在更新子任务中,HLIA算法利用图像之间的相似性关系,主题之间的共生关系,图像与主题的关联关系对图像的抽象语义进行了建模。通过复杂图聚类,将代表了图像高层语义的热点话题提取出来,并利用与热点话题相关的图像集对原始的训练集进行更新。在标注子任务中,对于查询图像,HLIA算法利用图像的视觉特征在训练集中搜索与其相似的候选图像；利用超图和谱聚类将候选图像集中与查询图像不相关的图像过滤出去；在保留的候选图像中提取标注词。在基于NUS-WIDE的更新数据集上,相比SBIA和LTA标注算法,本文提出的HLIA算法在平均正确率指标上分别提升了25%和58%；在20组食品安全热点事件数据集上,相比SBIA和LTA算法,HLIA算法在平均正确率指标上分别平均提升了22%和52%。实验结果表明,HLIA算法的更新机制能够实时更新训练集的语义覆盖度,保持了训练集的语义与网络热点话题的同步,能够为大尺度的数据集提供更好的标注性能。在网络模拟环境下的标注实验中,当训练集与测试集的尺度比从1：0.6分别达到1：5.5、1：55时,HLIA算法的平均正确率依次为60.2%、56.8%和36%。HLIA标注算法能够提供稳定的标注性能。(5)研究了文本语义与图像语义的转换问题,设计并实现了基于文本语义的图像自动生成系统设计并实现了一种基于文本语义的图像自动生成系统(TTI),主要包括三个核心框架：文本语义的理解、文本语义到图像语义的转换、图像语义的空间布局。TTI系统将基于文本的语义生成一种图像模板,该模板给出了该文本语义所应该具有的视觉对象约束以及视觉对象之间的布局约束,利用该模板可以在数据库中寻找到与之匹配的图像。TTI模板表达了图像集合的视觉内容和场景语义。利用TTI所生成的模板分别进行了图像分类与标注实验。在图像标注实验中,相比Synset算法,基于TTI模板匹配的标注算法在平均正确率指标上提升了37%；在图像分类实验中,相比OB和SaOC算法,基于TTI模板匹配的分类算法在平均正确率指标上平均提升了15%和2%。同时,从训练过程的复杂度来看,基于TTI模板匹配的分类、标注算法更容易实现,因为它不需要训练集,克服了传统分类、标注算法对训练集的质量和数量的依赖性。通过TTI模板匹配在视觉内容和场景语义上的约束,能够将文本的语义准确地展现在图像之中,贯通了文本和图像的语义空间,是一种全新的解决语义鸿沟的方法。

其他文献

规范建设工程竣工规划验收测量成果资料的探讨

建设工程竣工规划验收是城市规划批后管理的一项重要工作，验收测量的成果报告则是城市规划行政主管部门作出审批的重要依据，验收测量的资料成果是否准确、直观、明了，将直接影响

期刊

规划验收测量成果资料规范精度

Na2O2与H2O反应实验的改进

文章对Na2O2与H2O反应实验进行了两个改进,趣味性和实验效果均很好。

期刊

Na2O2与H2O反应实验改进

《长沙方言考》本字商榷

《长沙方言考》是杨树达先生考释长沙方言词汇的经典之作,对汉语史和方言研究产生了重要影响。《长沙方言考》所考条目绝大多数都精确可信,但是由于时代的限制,其中也存在古

期刊

本字长沙方言考方言比较

纳丁·戈迪默《七月的人民》的后殖民解读

全球化是后殖民世界发展的一个必然形势,而各个民族与国家之间的文化融合则是全球化过程中的一个必然趋势。在文化融合的过程中,各个民族与国家都面临了许多的困难与挑战,南

学位

纳丁·戈迪默七月的人民后殖民种族歧视种族隔离角色与身份的转变全球化文化融合文化多元化

基于FPGA和USB3.0的高速CMOS图像数据采集系统设计

如今高性能CMOS图像传感器的应用已经日趋广泛，同时对高速数据采集系统的性能也提出了越来越高的要求，所以对于高速图像采集系统的研究具有实际意义。高速采集和实时传输分别是

学位

FPGAUSB3.0CMOS图像传感器Labview高速图像采集

“支架理论”框架下综合英语课前演讲行动研究

课前演讲是英语专业综合英语课堂教学中常见的课堂活动,针对课前演讲过程中普遍存在的学生演讲水平低,教师指导性低,与听众互动少的问题,笔者开展了为期两学期的行动研究。本

会议

综合英语课堂支架理论课前演讲

围绕“三个相适应”提高民兵非战争军事行动能力

民兵作为我国武装力量“三结合”的重要组成部分，在应急救援、应急维稳中具有独特的优势，能够发挥其他武装力量不可替代的作用。要积极适应非战争非传统安全威胁日益上升的形势

期刊

相适应应急队伍非战争军事行动战斗精神培育

从功能对等理论看日译汉句子结构调整

1960年代，尤金A奈达提出了“形式对等”和“功能对等”的两个概念。形式对等包含两个方面，分别为语体对等和形式对应。形式对应是指语序、语法等形式相同，也就是所谓的“直译”

学位

功能对等形式对等语体对等形式对应句子结构

中国农业银行S分行企业文化建设研究

企业文化,说到底是一个企业自身特有的不同于其他企业的思维方式和行为方式。这种特定的思维方式和行为方式不仅影响着企业的管理和经营的模式状态,而且甚至决定着企业经营的

学位

农业银行企业文化建设核心竞争力

“营改增”对吉林油田公司税负影响研究及税收筹划

随着我国社会主义市场经济为取向的经济体制的不断深化改革，税制的改革也需要不断深化，我国自1994年实施对货物和劳务分别征收增值税和营业税制度以来，可以说是一场“革命性”的

学位

“营改增”税负影响税收筹划

基于语义分析与融合的图像分类与标注研究

其他学术论文