基于时空协同建模的视觉显著性目标检测方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hedanjiaotong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。
  在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标检测,是一个重要的研究方向。目前显著性目标检测存在诸多困难。一方面,由于大量图像中存在部分共享关键内容,这些具有共享内容的图像彼此关联而形成类型丰富的图像组,从而促使显著性目标检测所研究的数据从单幅图像延伸到多幅关联图像(本文称为图像组),研究任务也从挖掘单一图像空间结构属性扩展为对不同视觉对象所具有的更复杂空间关联交互的建模;另一方面,视频数据呈现空间一致性和时间连续性的特点,因此在对视频进行显著性目标检测中需要在建模时兼顾空间结构约束和时间上下文关联依赖。为了解决这些问题,需要对图像组和视频中所蕴含的多维度关联关系进行挖掘,形成相应的协同建模方法。
  为此,本文主要针对如何对图像组和视频中多维度信息进行协同建模来提高视觉显著性目标检测性能这一问题开展研究。具体而言,本文的研究思路如下:在视觉数据的语义表达层面,进行多特征协同学习研究;在空间结构属性挖掘层面,进行多视觉对象空间语义互动协同建模研究;在时序依赖关系层面,结合空间属性,进行时空上下文协同建模研究。为了将上述不同侧面的研究相互融合起来,利用时空图模型和卷积神经网络模型的学习机制,采用网络多通道特征协同融合、时空流形传播和多尺度协同学习等策略对图像、视频等视觉数据进行显著性目标的发现。本文的研究根据视觉数据的不同从三个角度展开,分别提出了针对图像组数据的协同显著性检测方法、针对视频数据的基于图论的视频显著性检测方法以及基于端到端深度卷积网络的视频显著性检测方法。本论文的主要贡献如下:
  1.为了对图像组中的视觉语义信息进行多维度特征表达,并对不同视觉对象之间的空间互动关系进行协同建模,本文提出了基于全卷积神经网络的图像组协同显著目标检测方法。该方法采用数据驱动策略对图像组内不同视觉对象之间的协同性和一致性建模,以发现具有共同语义属性的显著性目标。此外,该方法建立了统一的联合学习框架来探索图像内部以及图像之间空间结构属性,可更有效对图像内独特性信息和图像组一致性信息进行协同建模学习。该方法符合人类视觉系统对多图像的感知过程,能提取多图像数据中关键信息,在显著性目标检测任务中取得了较好效果,在实验中验证了算法的可靠性和鲁棒性。
  2.为了发现具有时空属性的视频细粒度表达单元,以及对视频序列的空间和时间上下文互动关系进行协同建模,本文提出基于图论的时空上下文视频显著性目标检测方法。该方法基于视频帧内空间结构一致性和跨帧时序内容连续性来构建具有时空语义属性的视频原子单元,从原子单元这一细粒度层面来实现视频时空结构表达。同时,该方法以视频原子单元为节点,构建时空图模型并建立流形传播机制,有效建模视频原子单元之间的时空上下文互动关系。该方法在保证视频显著性检测性能的基础上,保持了视频序列的空间平滑性和时间一致性,从而得到了有效的、鲁棒的视频显著性目标检测结果。
  3.为了对视频显著性目标的多维度属性进行时空协同建模,本文提出了基于端到端深度卷积神经网络的视频显著性检测方法。该方法综合考虑影响视频显著性检测的多维度属性,即视频帧空间信息、主体目标运动信息、跨帧时间一致性信息以及视频多尺度表达等属性,通过端到端的联合学习框架协同建模视频序列的时间、空间上下文互动关联,实现视频显著性目标的提取。此外,该方法提供灵活可变的学习框架接口,支持不同基准网络模型,具有较强的适应能力。
其他文献
图被广泛地应用于各个领域中,例如交通路网、电子通信网络、社交网络、生物信息网络以及协作网络等。图结构中,边表示顶点之间的关系。图上有许多特制的算法,图查询研究一直受到学术界与工业界的广泛关注。随着信息化时代的到来,各种信息以爆炸模式增长,导致图的规模日益增大。如此大规模的数据量,给图查询处理带来了极大的机遇与挑战。  目前已有的大量图查询算法大多是集中式算法,但随着图数据的指数型增长,传统的索引与
学位
随着计算机处理能力的增强,个人手持设备的普及,将三维城市模型服务推广到普通用户中在技术上变得逐渐可行,人们对基于三维城市模型信息服务的需求也越发旺盛。在游戏及VR等应用场景中,为了提升玩家用户的沉浸感,常常需要将指定的城市模型接入到应用中。因此,在保持原始扫描获得数据的语义信息和视觉效果下,应尽量提高其存储和处理效率。所以需要对原始数据进行一定的预处理,在提取其语义信息后对模型进行适当的简化。  
电网中的异常检测指电网在未受到攻击的情况下,由于个别或部分元件发生故障,导致网内其他设备表现出偏离平衡状态的情况。严重的电网异常容易引发大规模停电事故,从而造成巨大的经济损失。因此,分析人员需要快速、准确的检测电网异常,以此为基础做进一步的故障原因诊断、影响分析,并采取对应的修复措施。已有的电网异常检测工作多基于聚类、分类等自动化方法,然而随着检测准确率的不断提高,误报与漏报率仍居高不下。传统的漏
学位
光谱图像是一种通过捕获数个频率范围的电磁波进行成像得到的图像。光谱图像除仅有一个波段的单色图像外,还有包含三个到数十个波段、光谱分辨率较低的多光谱图像,与光谱分辨率在10nm范围内、常有数十至数百个波段的高光谱图像,这种含有丰富光谱信息的图像在科学研究种具有重要的作用。然而,由于超越可见光波长范围的波段无法被人类直接观察、且大量的波段数据本身也加重了计算负担,光谱图像的可视化与降维融合成为了十分重
随着科学技术的发展,每个人的生活都离不开各式各样的互联网服务。但是,互联网的服务系统却面临着信息爆炸带来的信息过载挑战。个性化推荐系统则是解决这一问题的核心方法。  现阶段面向大规模互联网服务系统中的个性化推荐主要面临着以下三大块棘手的问题:海量移动用户访问日志难以识别;项目受短期热点的影响激增;不同的协同过滤推荐应用很难利用同一个算法来提升效果。  第一个问题,是来源于用户层面的挑战。数据的获取
在信息化的时代,人们获取大量数据,从中提取关键信息,并据此做出决策。各个领域的从业者,包括科学家、分析师、记者、设计师,乃至普通大众,均意识到数据和数据分析的重要性。其间,数据可视化和可视分析作为发掘数据中有效信息、传达见解和交流与协作的高效工具被广泛运用于商业智能、城市规划、新闻传播等。  伴随着互联网、传感器、物联网等技术的不断发展,人们获取信息的能力和分析数据的需求不断增长。这样的趋势对于可
手势交互可以通过多种交互设备进行,如深度相机、彩色相机、数据手套、表面肌电电极等。基于表面肌电的手势交互凭借其易穿戴、对光照环境的鲁棒性以及对残疾用户运动意图较强的识别力等优点,成为人机交互领域的新型研究热点之一。  在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存
随着计算机技术的快速发展,互联网积累了海量的时序数据,如问答数据、社交网络数据和电商交易数据等。如何对这些时序数据中内隐因素之间的交互进行建模,理解个体用户或群体用户在时序数据中所蕴含的意图和行为,是当前人工智能领域研究的热点和难点。本文以问答系统中时序数据理解为研究对象,提出了若干算法模型并进行验证。  一般而言,问答时序数据中丰富的内隐交互信息可以分为结构时序交互和语义时序交互。结构时序交互表
学位
随着云计算、大数据和物联网等信息技术的飞速发展,全球数据呈现出海量集聚的特点。这些从不同来源所获取的海量数据反映着人类社会的生活和规律,如群体出行和交通流量。因此,如何对多源数据进行分析与理解,以更好地全面了解这些多源数据所蕴含的丰富信息,是一个值得研究的重要问题。  多源海量数据本质上是序列数据,这些从不同来源获得的序列数据之间相互补充、彼此交互,刻画着人类社会中群体的行为习惯和生活模式。本文针
学位
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。  视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文
学位