论文部分内容阅读
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。
在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标检测,是一个重要的研究方向。目前显著性目标检测存在诸多困难。一方面,由于大量图像中存在部分共享关键内容,这些具有共享内容的图像彼此关联而形成类型丰富的图像组,从而促使显著性目标检测所研究的数据从单幅图像延伸到多幅关联图像(本文称为图像组),研究任务也从挖掘单一图像空间结构属性扩展为对不同视觉对象所具有的更复杂空间关联交互的建模;另一方面,视频数据呈现空间一致性和时间连续性的特点,因此在对视频进行显著性目标检测中需要在建模时兼顾空间结构约束和时间上下文关联依赖。为了解决这些问题,需要对图像组和视频中所蕴含的多维度关联关系进行挖掘,形成相应的协同建模方法。
为此,本文主要针对如何对图像组和视频中多维度信息进行协同建模来提高视觉显著性目标检测性能这一问题开展研究。具体而言,本文的研究思路如下:在视觉数据的语义表达层面,进行多特征协同学习研究;在空间结构属性挖掘层面,进行多视觉对象空间语义互动协同建模研究;在时序依赖关系层面,结合空间属性,进行时空上下文协同建模研究。为了将上述不同侧面的研究相互融合起来,利用时空图模型和卷积神经网络模型的学习机制,采用网络多通道特征协同融合、时空流形传播和多尺度协同学习等策略对图像、视频等视觉数据进行显著性目标的发现。本文的研究根据视觉数据的不同从三个角度展开,分别提出了针对图像组数据的协同显著性检测方法、针对视频数据的基于图论的视频显著性检测方法以及基于端到端深度卷积网络的视频显著性检测方法。本论文的主要贡献如下:
1.为了对图像组中的视觉语义信息进行多维度特征表达,并对不同视觉对象之间的空间互动关系进行协同建模,本文提出了基于全卷积神经网络的图像组协同显著目标检测方法。该方法采用数据驱动策略对图像组内不同视觉对象之间的协同性和一致性建模,以发现具有共同语义属性的显著性目标。此外,该方法建立了统一的联合学习框架来探索图像内部以及图像之间空间结构属性,可更有效对图像内独特性信息和图像组一致性信息进行协同建模学习。该方法符合人类视觉系统对多图像的感知过程,能提取多图像数据中关键信息,在显著性目标检测任务中取得了较好效果,在实验中验证了算法的可靠性和鲁棒性。
2.为了发现具有时空属性的视频细粒度表达单元,以及对视频序列的空间和时间上下文互动关系进行协同建模,本文提出基于图论的时空上下文视频显著性目标检测方法。该方法基于视频帧内空间结构一致性和跨帧时序内容连续性来构建具有时空语义属性的视频原子单元,从原子单元这一细粒度层面来实现视频时空结构表达。同时,该方法以视频原子单元为节点,构建时空图模型并建立流形传播机制,有效建模视频原子单元之间的时空上下文互动关系。该方法在保证视频显著性检测性能的基础上,保持了视频序列的空间平滑性和时间一致性,从而得到了有效的、鲁棒的视频显著性目标检测结果。
3.为了对视频显著性目标的多维度属性进行时空协同建模,本文提出了基于端到端深度卷积神经网络的视频显著性检测方法。该方法综合考虑影响视频显著性检测的多维度属性,即视频帧空间信息、主体目标运动信息、跨帧时间一致性信息以及视频多尺度表达等属性,通过端到端的联合学习框架协同建模视频序列的时间、空间上下文互动关联,实现视频显著性目标的提取。此外,该方法提供灵活可变的学习框架接口,支持不同基准网络模型,具有较强的适应能力。
在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标检测,是一个重要的研究方向。目前显著性目标检测存在诸多困难。一方面,由于大量图像中存在部分共享关键内容,这些具有共享内容的图像彼此关联而形成类型丰富的图像组,从而促使显著性目标检测所研究的数据从单幅图像延伸到多幅关联图像(本文称为图像组),研究任务也从挖掘单一图像空间结构属性扩展为对不同视觉对象所具有的更复杂空间关联交互的建模;另一方面,视频数据呈现空间一致性和时间连续性的特点,因此在对视频进行显著性目标检测中需要在建模时兼顾空间结构约束和时间上下文关联依赖。为了解决这些问题,需要对图像组和视频中所蕴含的多维度关联关系进行挖掘,形成相应的协同建模方法。
为此,本文主要针对如何对图像组和视频中多维度信息进行协同建模来提高视觉显著性目标检测性能这一问题开展研究。具体而言,本文的研究思路如下:在视觉数据的语义表达层面,进行多特征协同学习研究;在空间结构属性挖掘层面,进行多视觉对象空间语义互动协同建模研究;在时序依赖关系层面,结合空间属性,进行时空上下文协同建模研究。为了将上述不同侧面的研究相互融合起来,利用时空图模型和卷积神经网络模型的学习机制,采用网络多通道特征协同融合、时空流形传播和多尺度协同学习等策略对图像、视频等视觉数据进行显著性目标的发现。本文的研究根据视觉数据的不同从三个角度展开,分别提出了针对图像组数据的协同显著性检测方法、针对视频数据的基于图论的视频显著性检测方法以及基于端到端深度卷积网络的视频显著性检测方法。本论文的主要贡献如下:
1.为了对图像组中的视觉语义信息进行多维度特征表达,并对不同视觉对象之间的空间互动关系进行协同建模,本文提出了基于全卷积神经网络的图像组协同显著目标检测方法。该方法采用数据驱动策略对图像组内不同视觉对象之间的协同性和一致性建模,以发现具有共同语义属性的显著性目标。此外,该方法建立了统一的联合学习框架来探索图像内部以及图像之间空间结构属性,可更有效对图像内独特性信息和图像组一致性信息进行协同建模学习。该方法符合人类视觉系统对多图像的感知过程,能提取多图像数据中关键信息,在显著性目标检测任务中取得了较好效果,在实验中验证了算法的可靠性和鲁棒性。
2.为了发现具有时空属性的视频细粒度表达单元,以及对视频序列的空间和时间上下文互动关系进行协同建模,本文提出基于图论的时空上下文视频显著性目标检测方法。该方法基于视频帧内空间结构一致性和跨帧时序内容连续性来构建具有时空语义属性的视频原子单元,从原子单元这一细粒度层面来实现视频时空结构表达。同时,该方法以视频原子单元为节点,构建时空图模型并建立流形传播机制,有效建模视频原子单元之间的时空上下文互动关系。该方法在保证视频显著性检测性能的基础上,保持了视频序列的空间平滑性和时间一致性,从而得到了有效的、鲁棒的视频显著性目标检测结果。
3.为了对视频显著性目标的多维度属性进行时空协同建模,本文提出了基于端到端深度卷积神经网络的视频显著性检测方法。该方法综合考虑影响视频显著性检测的多维度属性,即视频帧空间信息、主体目标运动信息、跨帧时间一致性信息以及视频多尺度表达等属性,通过端到端的联合学习框架协同建模视频序列的时间、空间上下文互动关联,实现视频显著性目标的提取。此外,该方法提供灵活可变的学习框架接口,支持不同基准网络模型,具有较强的适应能力。