基于卷积神经网络的注视点检测

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hulielie310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类在面对复杂场景时会注视最感兴趣的区域,人脑的视觉注意系统可以快速在复杂场景中选定注视位置。注视点检测系统通过一定的算法模拟人脑视觉系统,判别图像中每个像素被人眼注视的概率。注视点检测可以广泛应用于目标识别、视频压缩、视觉跟踪、图像分割等复杂任务的预处理环节。深度学习近年来在目标检测,图像分类等领域取得了很好的效果,这证明了深度学习是计算机视觉领域十分有效的工具和方法。深度学习结构强大的表达能力和复杂特征的提取能力极大地推动了注视点检测的发展。本文通过总结现有的注视点检测技术并结合当今前沿技术,提出了两种注视点检测方法:基于局部评估和全局优化的注视点检测方法和基于双流卷积神经网络的注视点检测方法。前者利用已有的神经网络计算的深度特征作为图像的评估特征,后者是专门的注视点检测网络。本文提出的基于局部评估和全局优化的注视点检测方法分为两大部分:局部评估和全局优化。局部评估分为两种方式:全局学习和具体学习。全局学习指采用整个数据库训练集合的图像训练评估分类器,具体学习利用半耦合字典学习算法,对于每张测试图像,都能重构一个针对此图像训练的具体的评估分类器。全局优化阶段,包括proposal的子集聚类优化和全局上下文优化。子集聚类优化可以减少离群值,增加局部评估的置信度,便于设计统一的特征来描述整个子集。全局上下文优化利用图像上下文信息,在全局尺度对注视点预测结果进行重新优化,输出最终的注视点检测图。本文提出的另一种基于双流卷积神经网络的注视点检测算法是一种端到端的卷积神经网络模型。双流包括注视点预测流和图像场景分类流,两个分支网络共享整个神经网络的前五个数据块。本文对两个流同时进行训练,得到的更加丰富的特征表示有利于两种任务。多任务学习用来学习注视点检测和图像类别的关系。另外,本文还设计了一种自适应融合机制来融合语义信息、对比度信息和中心先验。自适应融合机制利用场景分类网络的特征来判断对比特征图和中心先验的权重。本文在MIT300,MIT1003,CAT2000数据库上测试了上述算法,在MIT300,MIT1003数据库上测试了局部评估和全局优化算法。其中局部评估和全局优化算法在非神经网络结构的经典算法中取得了较好的性能,而双流神经网络算法性能优于近期所有注视点检测算法的性能。表明了本论文提出的算法的有效性。
其他文献
<正>教师是教育者,学生是受教育者。身为人师,在与学生交往的过程中,如下常见方式是失当的: 一、雕塑式:面孔经常如大理石雕塑一般冰冷,威严不可侵犯。这会使学生对老师敬而
认识四、六级考试的特点及分析其在大学英语评价中的作用是当前大学英语评价改革的基础.四、六级考试作为大学英语课程的其中一种评价手段,适合于检查对课程共同目标的实现程
把在工厂制作好的蜂窝梁和混凝土楼板通过抗剪连接件连接起来便组成了蜂窝组合梁,这是一种组合结构。蜂窝组合梁既具备蜂窝梁抗弯性能好等优点,又具有混凝土楼板抗压性能好的优点,并且通过将二者的连接避免了钢结构容易受压失稳的缺点和混凝土抗拉性能差的缺点。并且蜂窝梁和混凝土楼板都可以在工厂预制,有符合现阶段我国大力推广装配式建筑的潮流。虽然钢结构的优点有很多,但是在高温状态下,钢结构的力学性能会急剧下降导致钢
目的:探讨不同射血分数的慢性心力衰竭血清CysC、BNP水平变化及相关性,为慢性心力衰竭患者的诊断与治疗提供指导信息,同时评估患者心功能严重程度及预后的临床意义。方法:选择新医大第一附属医院心脏中心2017年1月至12月收治的339例慢性心力衰竭(CHF)患者作为心衰组。心衰组依据左室射血分数(LVEF)将分为3个亚组:射血分数降低的(HFrEF)、射血分数中间值的(HFmrEF)及射血分数保留的
教材是国家意志的体现,是学习教育教学的依据,语文教材是进行语文教学最重要的媒介。文言文,是语文教材中的重要组成部分。本论文研究的文言文范围是指以先秦口语为基础,经历代的传承和提炼而形成的较为稳定的句法和语法结构的文章,在时间和文体上都符合文言文的作品,也就是常说的文言散文。2001年新课程改革的推进,人教版是使用范围最广的教材。2016年9月,部编版教材在全国大多数省份投入并开始使用,2017年9