论文部分内容阅读
人类拥有出色的能力根据图像的低级属性(例如强度、颜色)和语义层面的信息进行有选择性地注意一个场景中的一些区域,这样的属性被纳入拥有显著效果的预测视觉显著性的计算模型中,并且这些模型已被用于自动图像标注和视频监控等应用中。传统上,显著性预测的算法侧重于识别人类观察者乍一看将要关注的注视点,而还有一些算法则侧重于找到图像中最突出且重要的目标。本文专注于第一种类型的显著性模型研究,其试图预测图像上的视觉注视点的概率分布。为了进一步研究视觉注视点显著性检测任务,本文提出了两种基于图像情感语义信息的视觉注视点检测模型。首先,本文提出的第一种用于视觉注视点检测的深度学习模型是RIL-DCN,该算法模型将融合了特征提取网络VGG16提取的最后两级较高级别的特征送入到本文提出的一个新颖的RIL(Residual Inception-Like)子模块,该子模块可以使网络在同一层基于不同的感受野提取图像特征,同时优化网络训练。由于使用了扩张卷积,所以该子模块可以捕获更多的全局情感语义信息,使整个网络可以更好地对图像进行语义方面的理解,从而准确地检测出图像中的显著区域。然而该模型并没有对所提取的特征进行选择,也就是说所有的特征都具有同等重要性。为了解决这个问题,本文提出了第二种用于视觉注视点显著性检测的深度学习模型—ME-CASA,该算法模型的最大贡献在于提出了一个新颖的CASA(Channel and Spatial Attention)子网络,这个子网络可以有效地编码图像的情感语义信息,通过在通道层面和空间层面给不同特征以不同的重要性权重,使得整个网络模型可以准确定位一张图像中显著区域的优先级,准确地找到图像中最显著的目标区域。网络的特征提取部分由融合同一分辨率下的不同级别的特征改为融合由双流VGG19网络提取的不同分辨率下的高级语义特征。这样的总体网络设计有助于更好地提取图像的情感语义信息以及精确定位最显著目标区域的所在位置,以达到更接近人眼注视效果的计算机视觉注意力模拟。本文对所提出的2种视觉注视点检测算法模型在2种公开的带有情感内容的显著性数据集上进行了测试,并与其他8种优秀的模型在7种显著性度量指标上进行了比较。实验结果表明,相较于其他先进算法,本文提出的第一种视觉注视点显著性检测模型在性能上取得了较好的效果,能够得到与真值较为相近的预测,而第二种视觉注视点显著性检测模型不仅在性能指标上优于其他模型,而且能更好地提取图像的情感语义信息以准确定位图像中显著性目标区域的优先级,这主要归功于所提出的CASA算法。