论文部分内容阅读
如何对互联网庞大的图像资源进行组织、检索和管理已成为当代多媒体技术的研究热点。图像分类与图像标注是解决这一问题的关键途径。尽管图像分类与标注技术在某些特定数据集上取得了一定的进展,但在面临庞大的互联网数据时其性能下降得非常严重。要研发出真正鲁棒、实用的图像分类与标注系统需要解决如何跨越语义鸿沟问题,需要研究面向互联网大数据的分类与标注系统以及需要研究如何满足个性化、智能化的检索需求。论文重点研究了图像分类与标注中的上述关键科学问题。论文完成的主要工作和创新点如下:(1)针对已有的分割算法缺乏通用性,分割结果语义不完整性问题,提出了一种基于聚类集成的图像分割算法提出了一种基于聚类集成的图像分割算法(CE-IS),利用聚类集成算法将基于不同特征的子分割结果合并成最终的分割结果。CE-IS算法能够充分发挥每种特征在分割中的优势,对不同类型的图像均能提供稳定的分割质量;在子分割过程中,利用PageRank算法将图像中区域之间的语义相似性和空间布局信息融入到分割中。相比仅使用视觉特征相似性的分割方法,CE-IS算法能够有效地消除语义鸿沟所带来的影响,能够正确、完整地将语义对象从背景中分割出来,有效地提高了分割的精度。在Weizmann分割评估数据集上,相比Gpb、Mean Shift和N-Cut算法,本文提出的CE-IS算法在平均F测度指标上分别提升了15%、31%和37%,在平均碎片率指标上分别降低了32%、51%和44%;在BSDS500数据集上,相比Gpb,CE-IS算法在平均F测度指标上提升了8%,平均碎片率降低了26%;在Weizmann马类数据集和MSRC数据集上,相比Spatial-LTM算法,CE-IS算法在平均F测度指标上分别提升了29%和19%。CE-IS算法具有更好的通用性,更高的分割质量。(2)针对已有的对象检测算法在对象类建模时模型的整合能力和区分能力差,在检测时算法的计算复杂度高,检测效率低问题,提出了一种基于范例对象语义表达的对象检测算法提出了一种基于范例对象语义表达的对象检测算法(EOD)。在对象类的建模过程中,EOD算法利用多特征树生成范例对象,并以每个范例对象为坐标原点,构建了“范例对象-距离”特征空间。在新特征空间中,利用线性SVM为每个范例对象学习相似性评估分类器。EOD算法将这种相似性视为一种弱语义表达,全体范例对象的弱语义组合等同于将同类对象的多样性和异类对象的差异性信息共同编码到对象表达中,实现了基于语义的对象类表达;在检测过程中,为了避免对图像的所有位置进行穷举搜索,EOD算法采用了基于多特征聚类集成的分割算法产生检测窗口。由于分割算法充分利用了图像的结构信息,使得所产生的检测窗口与具体的对象类无关,避免了为每个对象类单独地生成检测窗口,有效地减少了检测窗口的数量;同时,EOD算法采用了自底向上的(Bottom-up)分割区域合并策略,利用合并过程中所产生的中间结果生成多尺度的检测区域,进一步确保了对目标对象位置的有效覆盖。在对象位置的生成质量比较上,相比DPM、SS-fast算法,本文提出的EOD算法在MABO指标上分别提升了4%和7%,而生成的检测窗口数量仅为DPM、SS-fast算法的0.06%和56%;在对象检测性能比较上,相比DPM、SS-fast算法,EOD算法在平均查准率指标上分别提升了42%和18%。EOD算法在大幅度减少检测窗口数量提高检测效率的同时,通过有效的对象表达方式显著地提高了对象识别的正确率。(3)针对已有的图像分类算法无法有效地提取和表达图像场景语义问题,提出了一种基于对象库语义表达的新型图像分类算法提出了一种基于对象库语义表达的图像分类算法(EODB-N-gram)。EODB-N-gram算法的核心是利用所构建的EODB-N-gram对象库提取图像的场景语义,并基于图像的场景语义表达训练分类器。EODB-N-gram对象库由对象检测子和N元对象组(N-gram)构成。在图像的语义建模过程中,EODB-N-gram算法利用对象检测子提取图像的视觉内容;基于这些视觉内容,EODB-N-gram算法利用对象间的视觉共生关系和视觉语法规则构建N元对象组,并通过N元对象组对图像中对象之间的空间布局关系进行建模,提取图像的场景语义;利用这些语义信息进行分类器学习,实现了基于语义的图像分类。在Scene-15数据集上,相比KSPM、OB和WSR-EC算法,本文提出的EODB-N-gram算法在平均正确率指标上分别提升了16%、10%和9%;在MIT Indoor数据集上,相比OB和WSR-EC算法,EODB-N-gram算法在平均正确率指标上分别提升了36%和32%。在Caltech-256数据集上,相比OB和WSR-EC算法,EODB-N-gram算法在平均正确率指标上分别提升了41%和31%。这种融合了场景语义的图像表达算法能够有效地消除传统分类中存在的语义鸿沟问题,显著地提高了分类的质量。(4)针对已有的图像标注算法缺少对高层语义建模的方法,训练集无法动态更新问题,提出了基于网络热点话题的图像高层语义标注算法提出了一种基于网络热点话题的图像高层语义标注算法(HLIA)。HLIA算法包括两个独立的子任务:基于网络热点话题的训练集动态更新子任务和基于搜索机制的图像标注子任务。在更新子任务中,HLIA算法利用图像之间的相似性关系,主题之间的共生关系,图像与主题的关联关系对图像的抽象语义进行了建模。通过复杂图聚类,将代表了图像高层语义的热点话题提取出来,并利用与热点话题相关的图像集对原始的训练集进行更新。在标注子任务中,对于查询图像,HLIA算法利用图像的视觉特征在训练集中搜索与其相似的候选图像;利用超图和谱聚类将候选图像集中与查询图像不相关的图像过滤出去;在保留的候选图像中提取标注词。在基于NUS-WIDE的更新数据集上,相比SBIA和LTA标注算法,本文提出的HLIA算法在平均正确率指标上分别提升了25%和58%;在20组食品安全热点事件数据集上,相比SBIA和LTA算法,HLIA算法在平均正确率指标上分别平均提升了22%和52%。实验结果表明,HLIA算法的更新机制能够实时更新训练集的语义覆盖度,保持了训练集的语义与网络热点话题的同步,能够为大尺度的数据集提供更好的标注性能。在网络模拟环境下的标注实验中,当训练集与测试集的尺度比从1:0.6分别达到1:5.5、1:55时,HLIA算法的平均正确率依次为60.2%、56.8%和36%。HLIA标注算法能够提供稳定的标注性能。(5)研究了文本语义与图像语义的转换问题,设计并实现了基于文本语义的图像自动生成系统设计并实现了一种基于文本语义的图像自动生成系统(TTI),主要包括三个核心框架:文本语义的理解、文本语义到图像语义的转换、图像语义的空间布局。TTI系统将基于文本的语义生成一种图像模板,该模板给出了该文本语义所应该具有的视觉对象约束以及视觉对象之间的布局约束,利用该模板可以在数据库中寻找到与之匹配的图像。TTI模板表达了图像集合的视觉内容和场景语义。利用TTI所生成的模板分别进行了图像分类与标注实验。在图像标注实验中,相比Synset算法,基于TTI模板匹配的标注算法在平均正确率指标上提升了37%;在图像分类实验中,相比OB和SaOC算法,基于TTI模板匹配的分类算法在平均正确率指标上平均提升了15%和2%。同时,从训练过程的复杂度来看,基于TTI模板匹配的分类、标注算法更容易实现,因为它不需要训练集,克服了传统分类、标注算法对训练集的质量和数量的依赖性。通过TTI模板匹配在视觉内容和场景语义上的约束,能够将文本的语义准确地展现在图像之中,贯通了文本和图像的语义空间,是一种全新的解决语义鸿沟的方法。