Research on Visual Saliency Detection with Comprehensive Information

来源 :天津大学 | 被引量 : 0次 | 上传用户:LINGER123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类视觉系统可在大范围、复杂场景中定位出最吸引注意的感兴趣内容或区域,称之为视觉注意机制。该机制可以帮助人类快速捕获场景中的有效信息,以便快速、有效的分析场景内容。受此机制的启发,研究人员希望计算机可以模拟人类的视觉注意机制,具备自动定位场景中显著性内容的能力,进而为后续处理提供有效的辅助信息,实现计算资源的合理分配,这样视觉显著性检测任务应运而生。场景的显著性区域通常包含了人类感兴趣的重要目标或最能表达图像的内容,是能够在较短时间内吸引人的视觉注意力的区域,而视觉显著性检测就是找出这些感兴趣目标或区域的过程。作为一个跨计算机科学、神经学、生物学、心理学的交叉学科方向,视觉显著性检测已经被广泛应用于诸多研究领域,如检测、分割、裁剪、检索、压缩编码、质量评价、推荐系统等,具有十分广阔的应用前景。根据处理对象的不同,视觉显著性检测可以进一步划分为图像显著性检测、协同显著性检测和视频显著性检测等不同分支任务。本论文以不同的辅助信息为引导,探讨这三种显著性检测任务之间的区别与联系,并针对现有方法中存在的问题,提出相应的解决方案,以期促进相关领域的发展。具体研究内容如下:(一)图像显著性检测。经过十余年的发展,面向彩色图像的单图显著性检测方法已经形成了较为完善的方法体系,新算法层出不穷,性能也不断被刷新,特别是深度学习方法的兴起使得算法性能发生了质的飞跃。具体来说,图像显著性检测方法可以粗略地分为两大类:一类是由数据驱动的自底向上的检测方法,这类方法主要利用底层线索(如颜色、纹理等)直接进行显著性模型构建;另一类是由任务驱动的自顶向下的检测方法,该类方法往往需要训练过程和特定的先验知识。实际上,人眼是通过双目立体视觉方式来感知客观世界的。换言之,人眼的双目视觉系统不仅可以获取场景的2D平面信息(如颜色、形状、结构等),还可以感知场景的深度信息,获得立体感。随着成像技术的进步与发展,成像设备不断更新换代,人们可以更加方便快捷地获取场景的深度信息,即以深度图的形式表示和存储场景的深度关系。作为颜色信息的补充,深度图可以提供许多有效的辅助信息,诸如形状、边缘、内部一致性等,进而进一步增强检测、识别等任务的效果。相比于RGB图像显著性检测任务,面向RGBD图像的显著性检测研究相对较少,研究人员在深度信息对人类感知系统的作用机理、深度信息的有效利用方法等方面还未达成共识,仍需进一步深入研究。本论文提出了一种基于深度置信测度和多线索融合的RGBD图像显著性检测算法。众所周知,高质量的深度图可以为显著性检测提供准确、有效的辅助信息,而低质的深度图如同噪声一样,引入到显著性模型后反而可能会降低检测性能。然而,现有的RGBD图像显著性检测算法并未对深度图质量进行有效评测和区分。基于此,通过观察深度图分布,利用深度图均值、变异系数和深度频率熵参量,构建了描述深度图可靠性的深度置信测度,以此控制模型引入深度信息的程度。测度数值越大,说明深度图质量越高,越可靠;反之,说明深度图质量较差,应该尽量降低深度信息引入的比例。此外,观察发现,显著性目标的深度在一定范围内(通常为靠近图像中心的区域)分布较为集中,而背景的深度分布比较分散,此特性类似于颜色域中的紧致性先验。因此,将颜色紧致性先验拓展至深度域,提出了一种融合颜色和深度信息的紧致性计算模型,得到紧致显著性图。为了获得更加鲁棒、稳定的检测性能,提出了一种基于深度修正的前景种子点选择机制,并综合考虑颜色、深度、纹理等特征,利用局部对比方法计算得到前景显著性图。最后,将紧致显著性图和前景显著性图进行加权融合,得到最终的RGBD显著性检测结果。在两个立体显著性检测数据库上的实验证明,所提出的RGBD显著性模型在定性和定量分析上都获得了较好的检测性能。该部分对应本论文中第3章内容。(二)协同显著性检测。近年来,图像数据量急剧增长,人们处理的对象不再局限于单幅图像,而是需要联合多图信息同时处理一组具有近似目标或事件的图像集合数据。协同显著性检测作为一种新兴的、更具挑战性的任务逐渐引起了研究者的关注。与传统的单图显著性检测模型不同,协同显著性检测模型旨在从包含两个或多个相关图像的图像组中发现共同的显著性物体,而这些目标的类别、内在特征和位置往往都是未知的。由于其优越的可扩展性,协同显著性检测方法也已被广泛应用于协同分割、近似目标检测、目标协同识别、图像检索以及图像简报生成中。根据协同显著性检测的定义,协同显著性目标需同时满足两个特征属性:(i)显著性,即每幅图像中的协同显著性目标应该是显著的;(ii)共有性,即协同显著性目标应该是整个图像组中共有的目标,且具有近似的外观特征。因此,在协同显著性检测任务中,图像之间的对应关系用于判决单幅图像中的显著性目标是否是整个图像组中所共有的显著性目标。换句话说,有效捕获图像组中的图间对应关系是协同显著性检测任务中必不可少的环节和过程。现有的方法通常将图间关系建模为聚类问题、匹配问题、传播问题或学习问题等。建模为聚类问题的方法虽然具有较好的算法时效性,但其性能容易受噪声影响,算法精度有限。相比之下,基于相似匹配和传播的图间关系获取方法较为常用,其准确性较高,但需要以牺牲时间复杂度来换取。最近,基于学习的方法取得了更好的性能,但其往往需要大量带标签的样本数据进行模型训练,数据准备阶段成本较高,未来还需进一步研究。同样地,深度信息也可以引入到协同显著性检测任务中,进一步提高检测性能。这样,面向RGBD图像的协同显著性检测任务应用而生。除了考虑图间对应关系外,如何有效挖掘深度信息也是需要着重解决的问题。围绕RGBD协同显著性检测任务,本论文开展了三方面的研究工作:(1)提出了一种基于多约束特征匹配和交叉标签传播的RGBD协同显著性检测模型,将深度信息看作颜色信息的补充特征,利用多约束特征匹配方法获取图间约束关系计算图间显著性图,并利用基于交叉标签传播的优化机制对图内和图间显著性图进行交叉优化。具体来说,首先利用现有的立体显著性检测模型计算图像组内每幅图像的图内显著性图。然后,分别在两个层级上进行特征匹配获取图间约束关系,生成图间显著性图。第一个层级是超像素级的相似性匹配,根据颜色、深度和显著性三种约束确定当前超像素在同组其他图像中的匹配超像素集合;基于图像组中相似性较高的两个图像之间存在共有显著性目标的可能性更大的观察,设计了第二个图间关系捕获层级,即图像级的图间相似性度量,用于提供整个图像尺度上的全局图间关系。根据捕获的超像素级和图像级的图间对应关系,超像素的图间显著性被定义为其他图像中对应超像素显著性值的加权和,其中加权系数由图像级的相似性度量计算得到。紧接着,为了获得更加均匀、一致的检测结果,将协同显著性检测的优化问题建模为一个“标签传播”问题,设计了基于交叉标签传播的优化机制对图内和图间显著性图进行交叉融合和优化,即首先利用图内显著性图对图间显著性图进行优化,然后利用优化后的图间显著性图对图内显著性图进行优化。最后,将原始显著性图与优化后的显著性图进行融合得到最终的协同显著性结果。在该工作中,还构建了一个具有真图标定、涉及21个图像组、包含150张图像的RGBD协同显著性检测数据集,且已对外开放下载。在两个RGBD协同显著性检测数据库上的实验证明了该方法的有效性。该部分对应本论文中第4章内容。(2)提出了一种迭代的RGBD协同显著性检测框架,其中补机制基于图内的深度和显著性传播来突出显著性区域,删机制通过提取的图间约束关系来抑制非共有的显著性区域,迭代机制以循环的方法获得更加均匀、一致的协同显著性结果。对于RGBD协同显著性检测任务,应该重点解决两个问题:一是如何充分挖掘深度信息,二是如何捕获图间关系对显著性目标进行筛选。鉴于单图RGB显著性检测的快速发展和优异性能,完全可以直接利用现有的单图RGB显著性检测方法生成图内显著性检测结果,而不需要设计一个包含各个模块的完整框架(如图内显著性检测模块、图间显著性检测模块和优化模块)来实现协同显著性检测任务,进而将重点放在深度信息和图间约束关系的获取上。基于此动机,该工作以现有的2D单图显著性结果作为随机初始化,利用一个循环修正模型实现了RGBD图像的协同显著性检测,即实现了从RGB显著性检测任务到RGBD协同显著性检测任务的转换。该框架由三个机制组成:补机制通过深度传播将深度信息引入模型中,并利用显著性传播进一步改善图内显著性结果。观察深度图发现,显著性目标内部的深度值较大且趋于平滑、一致,而且高质量的深度图还可以提供锐利且清晰的目标边界和形状信息。基于上述观察,提出了一种新的深度描述子——深度形状先验,用以捕获深度图的形状信息,进而增强显著性检测性能。删机制通过提取的图间约束关系来抑制非共有的显著性区域和背景区域。具体来说,在该机制中,构造了超像素级的相似性度量来表示两个超像素之间的相似性关系,并设计了一个共有概率函数来度量每个超像素属于共有区域的可能性,生成图间显著性结果。迭代机制以循环的方法将整个模型串联起来,以获得更加均匀、一致的协同显著性结果。迭代过程通过判断最大迭代次数和两次迭代结果的变化程度来决定是否终止。通过在两个RGBD协同显著性检测数据库上的定性和定量实验证明了该方法的有效性。该部分对应本论文中第5章内容。(3)提出了一种基于分层稀疏重建的RGBD协同显著性检测方法,其中全局重建通过一个共有前景字典来捕获整个图像组的全局特性,成对重建通过多组成对字典挖掘图像对之间的对应关系,能量函数优化用于改善图内平滑性和图间一致性。基于相似性匹配算法可以获得较为准确的图间对应关系,但其运算量较大,计算复杂度较高。而基于聚类的图间关系建模方法对噪声比较敏感,以准确性换取了时效性,使得算法性能大打折扣。因此,现有算法很难同时兼顾有效性和时效性。针对这一问题,稀疏表示技术提供了很好的解决方案,已被广泛应用于包括显著性检测在内的多项任务中。传统的基于稀疏表示的显著性检测方法通常利用背景或前景字典来重建每个处理单元(如超像素),并且通过计算重建误差来度量显著性值。实际上,除了用于描述单幅图像的显著性之外,稀疏表示还可用于捕获图像间对应关系,实现图间显著性检测。通过考虑全局和局部图像间信息,提出了一种分层稀疏重建模型以捕获更加全面的图间关系,主要包括两个互补机制:一方面,整个图像组中的共有显著对象应属于同一类别并具有相似的外观特征。因此,利用图像组内的所有图像信息构建一个全局前景字典,并以此对图像组内的每幅图像进行稀疏重建,捕获全局的图间对应关系,这被称为全局稀疏重建。另一方面,多个图像之间的关系可以分解为多个图像对之间对应关系的组合。因此,每幅图像可以被图像组中其他图像构造的前景字典进行重建,进而从局部视角获得多对图间显著性图,融合后得到成对的图间显著性结果,该过程称为成对稀疏重建。此外,同一图像组中的共有显著性目标应该在外观上具有较高的相似性和一致性。因此,协同显著性检测模型应该保证检测结果具有较好的图内平滑性和图间一致性。为此,提出了一种能量函数修正模型以获得更加一致、准确的协同显著性结果,包括一元数据项、空间平滑项和全局一致项。数据项用于限制修正算法的更新变化程度,平滑项用于约束具有相似外观的空间相邻区域具有较为一致的显著性得分,全局一致项则专为协同显著性检测任务设计,使得共有显著性目标在整个图像组中保持一致。在两个RGBD协同显著性检测数据库上的定性和定量分析实验表明,该方法优于目前最先进的算法。该部分对应本论文中第6章内容。(三)视频显著性检测。大数据时代的来临,使得数据形式发生了翻天覆地的变化,传统的图像数据已不足以满足人们日益增长的感官需求,视频数据量呈现出井喷式的增长,如何准确、连续地提取视频数据中的显著性目标成为亟待解决的新课题。视频显著性检测旨在通过联合空间和时间信息,实现视频序列中与运动相关的显著性目标的连续提取,已被广泛应用于视频目标检测、视频摘要、基于内容的视频检索等领域。不同于图像显著性检测,视频显著性检测需要同时结合时间信息和空间信息,连续地定位视频序列中与运动相关的显著性目标。与协同显著性检测相比,视频显著性检测还需考虑运动信息和时序特性,而且具有“相邻视频帧之间相关性较大”的先验。由于视频数据量大、场景变化明显、目标大小不一致、存在遮挡等问题,使得视频显著性检测研究难度较大,算法性能有待进一步提高。根据是否需要进行训练学习,视频显著性方法可以分为基于底层线索的方法和基于学习的方法两大类。其中,基于底层线索的视频显著性检测方法可以进一步划分为基于变换分析的方法、基于信息论的方法、基于稀疏表示的方法、基于视觉先验的方法和其他方法五类,而基于学习的方法可以分为传统学习方法和深度学习方法两类。本论文提出了一种基于稀疏重建与传播的无监督视频显著性检测算法,利用运动紧致性和运动独特性挖掘运动信息,采用基于稀疏的显著性双向传播方案捕获帧间对应关系,利用全局优化改善整个视频中显著性对象的全局一致性。在视频数据中,运动物体通常比静态物体更容易受到关注。但是,并非所有的运动目标都是显著的,还需要通过分析周围区域和相邻帧进行进一步区分。因此,如何充分利用运动信息来突出显著性目标并抑制背景对视频显著性检测至关重要。目前,常用的运动特征有光流对比度、光流梯度等。然而,这些方法容易受噪音和背景运动影响,稳健性较差。众所周知,稀疏表示是一种判别性较好的数据表达方式,且对噪声具有较好的鲁棒性,已经被用于改善各种推理任务性能,例如对象跟踪、人脸识别、形状估计等。而且,也有许多显著性检测算法基于稀疏表示进行计算,但多数仅用于处理单张图像数据或视频的单帧数据。在该工作中,稀疏表示技术不仅用于计算单帧显著性,还用于进行具有前向-后向传播策略的帧间显著性计算。首先,在静态线索和运动先验的帮助下,通过稀疏重建模型计算视频序列中每个视频帧的显著性。具体来说,从光流数据特性入手,将颜色空间的紧致性和独特性先验引入运动域,提出了运动紧致性和运动独特性概念,其中运动紧致性描述了光流信息的分布,而运动独特性描述了运动幅度信息的外貌特征。利用这些运动线索,可以有效改善运动显著性测量的精度。实际上,视频序列中相邻帧之间的相似性较高,因此稀疏重建方法也可以用于描述帧与帧之间的对应关系,进而定义帧间显著性图。基于此,设计了一种渐进式的稀疏传播框架,采用前向-后向策略来建模帧间对应关系,并生成空时域上的帧间显著性图。在前向传播中,前一帧视频数据用于构建前向字典,并对视频当前帧进行重建,捕获前向帧间关系。相反,后向传播则从最后一帧逐渐传播至视频第一帧,并利用后一帧视频构成的后向字典对当前帧进行重建,挖掘后向帧间关系。此外,在视频显著性检测中,应考虑时空一致性以获得更加平滑、一致的结果,即要求显著性区域或背景的显著性值不应沿时间轴急剧变化。然而,在大多数现有方法中,输入视频是逐帧处理的,这样会忽略了整个视频序列的全局特性,进而使得显著性结果只能保证整个视频的局部一致性而非全局一致性。因此,提出了一种基于能量函数的全局优化方案,主要包括一元数据项、时空平滑项、空间互斥项和全局一致性项。在三个大规模视频数据集上对该方法进了实验验证,结果表明所提方法获得了最优的定性和定量结果。该部分对应本论文中第7章内容。
其他文献
本学位论文主要研究带有质量约束的非线性Schr(?)dinger方程:其中N≥1,f∈C(R,R),m>0是给定的常数,μ∈R作为Lagrange乘子出现.在第一章中,我们简要介绍问题的研究背景和研究现状,并陈述本文的主要结果.在第二章中,我们关心质量次临界情形.在一般质量次临界条件下,我们证明当N≥4时存在非径向对称解;而当N=4或者N≥6时,我们证得多个(有时是无穷多个)非径向对称解的存在性.
折纸是一门中国的传统艺术,其能够将平面材料通过折叠转换成三维结构。曲线折痕折纸是一种特殊类型的折纸,其使用曲线折痕图案通过非刚性折叠使平面材料具有不同的三维结构。近年来,由于其特殊的结构以及力学性能,曲痕折纸在工程和建筑领域中也有广泛的应用。本文通过考虑材料弹性弯曲能量响应和折纸可展性约束之间的相互作用,得到了一系列曲痕折纸图案,并且系统性的研究了弹性弯曲曲痕折纸的设计和应用。首先,本文通过将大弹
本文研究了非线性偏微分方程的分支理论及其应用.主要包含两方面:一是以动力系统,Conley指标理论为工具研究局部半流与非线性发展方程的全局动态分支理论及其应用;二是以变分方法,静态分支理论为工具研究耦合非线性Schr(?)dinger方程组的正解的性质和结构.在全局动态分支理论及其应用方面,我们首先从不变集分支的角度对完备度量空间上的局部半流建立了两个新的全局动态分支定理.这两个定理的条件易验证且
本文研究了由G布朗运动驱动的几类随机微分方程分布性质:包括与维数无关的Harnack和推移Harnack不等式及其应用;可加泛函的路径无关性的充要条件;泛函型随机微分方程的保序性.全文共分如下六个部分.在第一部分,我们概述了本文的研究背景并回顾了与维数无关的Harnack不等式以及G期望、G-布朗运动和G-Girsanov变换的基础知识.在第二部分,我们建立了可加非退化噪声情形下由G布朗运动驱动的
本文主要研究了非线性色散方程的孤立波解的稳定性理论,适定性和散射性及一类双流体力学方程的长时间行为.全文共分为五章.第一章为综述,共分为五小节.第一节为本文的研究背景和研究进展.第二,三,四,五节分别给出了本文中研究的模型的背景和研究进展,以及所得到的主要结论.第二章研究广义Boussinesq方程孤立波解的不稳定性.广义Boussinesq方程写为(?)(t,x)∈ R × R,其中0
微波光子学技术是融合了微波技术和光子学优势的新兴技术,它旨在利用光学技术的高速率、大带宽、低损耗及抗电磁干扰等固有优势,解决传统微波技术(例如高速率波形信号的产生等)所面临的带宽及速率瓶颈等问题。其中以光电振荡器(OEO)为代表的光生微波技术突破了传统微波源的相位噪声的极限,成为了国际研究热点。本文针对此热点,围绕着基于OEO的微波波形产生技术及角速度测量技术两方面展开了研究:一方面探索新型的微波
本文针对光纤光栅(Fiber Bragg Grating,简写为FBG)传感技术的工程应用需求,开展了特殊环境下FBG传感相关技术与高速解调方法的研究。提出了一种基于光延时微波实时相位检测(optical true time delay microwave phase detection,简写为OTTD-MPD)的FBG高速、高分辨率解调方法,将微波光子学中的实时相位检测方法应用于FBG解调;针对
特征选择可有效地加快学习过程、提高模型的泛化能力和学习精度,因此,特征选择已经成为了机器学习任务中一个重要的数据预处理过程。近年来,特征选择方法已取得了长足进展,其研究主要聚焦于扁平化数据,即将所有的数据等同看待,不考虑数据间的结构关系。但是,大数据时代不仅带来了数据样本数量、特征维度及类别种类的快速增长,而且数据间也往往蕴含着丰富的层次结构关系。如何充分挖掘和利用大数据的这些层次结构信息来进行特
光子晶体光纤(Photonic Crystal Fiber,PCF)以其独特的光学性能和结构优势,近年来得到了广泛而深入的研究,且被应用于各种类型的传感器及特种激光器等领域。基于空芯光子晶体光纤(Hollow-core PCF,HC-PCF)的新型气体和液体传感器,由于其相比传统传感器更易实现全光纤、高灵敏度、长距离和分布式传感,成为传感领域的研究热点。进一步将高性能光纤激光器应用于有源内腔传感技
本文旨在研究级联点过程的参数估计、自激点过程的半参数与非参数估计以及借助级联和自激点过程挖掘和分析通讯行为特征.级联和自激点过程是一类描述聚类现象的点过程,可以有效地再现一件事件发生后产生的级联效应,因此常被用来解释人类行为中的爆发现象.其中最活跃的是自激点过程,近年来被广泛应用于以人类为主导的犯罪与安全、社交网络和金融等领域.同时,相比于其它类型的人类行为数据,人类通讯数据日益重要且隐含人类行为