论文部分内容阅读
视觉注意机制能够用来过滤掉场景中不相关的相扰信息,选择出和目标或者任务最相关的信息,起着引导眼动的作用。在计算机视觉领域,如何模拟视觉注意机制并将其应用到计算机视觉的各个方面已成为当今的研究热点。本文通过对视觉注意机制的内部的计算原理进行分析和模拟,分别针对自底向上的和自顶向下的两种视觉注意机制,提出了三个显著性模型,实现对复杂自然场景中人眼注视点的预测。首先,本文提出一个基于局部对比度分析的自底向上的显著性模型,用于在自由观看时的人眼注视点的预测。模型对中央-周边机制进行建模,通过计算图像区域的中央和周边统计量之差来实现显著性的计算。模型利用区域协方差和均值分别表示特征的二阶统计量和一阶统计量,实现了特征的融合。利用区域协方差和均值的维度与图像区域大小无关的优点,模型无需对图像进行降采样或者插值就实现了多尺度的显著性计算。该模型在三个国际上公开的眼动数据集中进行了实验,并与现有的12个主流方法进行了定量和定性的比较。实验得到了优于大部分的视觉注意模型的实验结果,从而证实了这个模型在预测人眼注视点的有效性。随后,本文提出了一个基于全局对比度分析的自底向上的显著性模型。模型基于直方图统计,对一个图像块和整幅图中所有其他图像块进行对比来实现显著性计算。模型利用独立成分分析抽取图像中的高层特征,并用直方图对所有图像块关于各个独立成分系数进行全局的统计,从而实现了基于直方图的全局对比度的显著性计算。模型的性能在三个国际公开的自由观看眼动数据集中进行了验证。实验证明该模型可与最先进的视觉注意模型相比较。最后,针对带具体搜索任务的眼动预测,本文提出了基于一个自顶向下的视觉注意机制的显著性模型。模型整合了三个因素:自底向上的显著性,目标外观和场景全局特征。其中自底向上的显著性是基于中央-周边机制,并由增量编码长度来度量。目标外观特性和场景全局特征为模型引入了自顶向下的信息。本文在观测者于真实场景中进行目标搜索任务下的眼动数据库对模型进行了深入的评估。实验证明,文中所提出的视觉注意模型可与最顶尖的基于目标搜索的视觉注意模型相媲美。