论文部分内容阅读
机器视觉跟庞大且复杂的人类视觉系统相差甚远,当前有效提高机器视觉算法性能的方法就是模拟人类视觉机制。人类视觉通过视觉注意(visual attention)机制,人脑眼系统可以将有限资源用于快速处理场景中的最感兴趣目标。针对视觉注意构建的模型被称为显著性模型(saliency model),该模型是当今认知科学、神经科学和计算机视觉领域的主要研究方向。视觉注意建模领域有注视预测(fixation prediction)和显著目标检测(salient object detection)两个主要研究方向。前者致力于在自然图像中预测人眼注视,有助于理解人类视觉注意;后者目的是提取图像中显著目标位置和轮廓,被广泛用于计算机视觉的高层任务。对图像分割等任务而言,注视预测模型比显著目标检测模型的性能低很多。其原因是注视预测模型总是产生稀疏的点状区域,但显著目标检测模型则产生平滑的目标区域和轮廓。如何构建更接近人类视觉感知的机器视觉算法,如何使两类研究方向的视觉注意模型相互借鉴,互补获利,不停改进算法性能,将是研究者们追求的方向和前进的目标。本文重点研究自底向上的图像显著目标检测算法。目的是借助可实时训练的随机权前馈神经网络来模拟视觉神经网络,参照人类视觉眼动机制,构建出一种新的显著目标检测系统框架,以得到更加贴近人类视觉感知的机器视觉算法。主要研究内容如下:(1)提出模拟人类注视眼动系统的显著目标检测框架。通过对人类注视眼动行为的观察分析,认为对注视区域的重复扫描(微跳视)和视觉感知的饱和/衰减过程,是人类视觉感知产生的关键行为标志。由此,先通过传统注视预测算法产生初始注视区域,再针对注视区域进行并行的随机神经网络“在线采样-学习建模-像素分类”过程,通过叠加分类结果产生粗视觉显著图和初步目标感知;进一步,构建了针对注视区域的串行迭代反馈过程,以促使目标感知饱和,生成更细致的显著图和目标。形成了一种动态、正反馈的算法框架,并且可以得到视觉显著图和最显著目标的分割结果。(2)模拟人类视觉感知的多通道特性,对前述算法的注视预测部分作改进。先由多种显著性检测算法分别得到原图像的显著性图,做归一化后叠加得到综合显著图;再对该图进行二值化从而获得初始注视区域。相关改进能够显著提高算法性能。(3)有监督学习算法依赖于训练样本。当训练样本含大量噪声,不能有效代表显著目标时,算法检测出的目标常常不理想。为了解决上述问题,我们借助RBD算法抑制显著图中的背景噪声。先通过对原图超像素化,计算超像素的背景概率,通过对背景概率高的超像素区域赋予低权值,来抑制显著图中背景像素。如此有效减少了背景像素被当做目标像素的几率。通过对前述算法中的粗显著图做背景抑制,能大幅降低后续算法中基于机器学习的正反馈迭代时的系统采样偏差,从而有效提高系统性能。(4)上述算法跟多个经典的、最新的显著性检测算法在多个标准图像数据库做对比实验。对比实验表明,本文算法可以得到排名前列的参数指标,并且检测获得的显著目标更贴近人类视觉感知结果。算法中的正反馈过程可迅速饱和,并未显著增加算法负担;适合作为一种有效的图像后期处理方法,有效提升已有显著性检测算法的性能。本文最后的改进算法无需改变任何参数和结构,即可应用于细胞图像分割和百度人形库的分割,效果超过或接近对比算法,体现了本文算法具有类似人类视觉系统的鲁棒性。