论文部分内容阅读
人类在面对复杂场景时会注视最感兴趣的区域,人脑的视觉注意系统可以快速在复杂场景中选定注视位置。注视点检测系统通过一定的算法模拟人脑视觉系统,判别图像中每个像素被人眼注视的概率。注视点检测可以广泛应用于目标识别、视频压缩、视觉跟踪、图像分割等复杂任务的预处理环节。深度学习近年来在目标检测,图像分类等领域取得了很好的效果,这证明了深度学习是计算机视觉领域十分有效的工具和方法。深度学习结构强大的表达能力和复杂特征的提取能力极大地推动了注视点检测的发展。本文通过总结现有的注视点检测技术并结合当今前沿技术,提出了两种注视点检测方法:基于局部评估和全局优化的注视点检测方法和基于双流卷积神经网络的注视点检测方法。前者利用已有的神经网络计算的深度特征作为图像的评估特征,后者是专门的注视点检测网络。本文提出的基于局部评估和全局优化的注视点检测方法分为两大部分:局部评估和全局优化。局部评估分为两种方式:全局学习和具体学习。全局学习指采用整个数据库训练集合的图像训练评估分类器,具体学习利用半耦合字典学习算法,对于每张测试图像,都能重构一个针对此图像训练的具体的评估分类器。全局优化阶段,包括proposal的子集聚类优化和全局上下文优化。子集聚类优化可以减少离群值,增加局部评估的置信度,便于设计统一的特征来描述整个子集。全局上下文优化利用图像上下文信息,在全局尺度对注视点预测结果进行重新优化,输出最终的注视点检测图。本文提出的另一种基于双流卷积神经网络的注视点检测算法是一种端到端的卷积神经网络模型。双流包括注视点预测流和图像场景分类流,两个分支网络共享整个神经网络的前五个数据块。本文对两个流同时进行训练,得到的更加丰富的特征表示有利于两种任务。多任务学习用来学习注视点检测和图像类别的关系。另外,本文还设计了一种自适应融合机制来融合语义信息、对比度信息和中心先验。自适应融合机制利用场景分类网络的特征来判断对比特征图和中心先验的权重。本文在MIT300,MIT1003,CAT2000数据库上测试了上述算法,在MIT300,MIT1003数据库上测试了局部评估和全局优化算法。其中局部评估和全局优化算法在非神经网络结构的经典算法中取得了较好的性能,而双流神经网络算法性能优于近期所有注视点检测算法的性能。表明了本论文提出的算法的有效性。