基于注意力模型的目标检测研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xuzhijiazhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测作为计算机视觉的基本技术,旨在对图像中预定义目标类的所有实例进行定位和分类。当前,虽然一些主流的目标检测算法在检测的精度和速度上取得了较好成果,但依然存在目标特征信息利用不充分、检测结果中目标的分类置信度与定位精度间缺乏一致性的问题。而注意力模型能够辅助网络关注目标区域并提升网络对目标信息的利用度,因此为解决上述问题,论文研究了基于注意力模型的目标检测,提出了基于注意力图的非最大化抑制(Non-Maximum Suppression,NMS)优化算法和基于空间注意力图的目标检测优化算法。论文的主要工作,可以概括为:(1)非最大化抑制算法是实现目标定位的关键步骤,但算法会抑制一些定位精度高但置信度较低的边界框。为解决这一问题,论文提出了一种基于注意力图的非最大化抑制优化算法。通过反向传播目标的高层语义信息重构目标特征,并对其加权生成目标注意力图,然后将检测边界框的感兴趣概率(指归一化注意力图上所包含区域的概率累加值)和分类置信度进行加权得到感兴趣分数,将其作为非最大化抑制算法的排序关键字可以获得目标的最佳边界框。基于PASCAL VOC2007、PASCAL VOC2012和MS COCO数据集进行实验,实验结果验证了该算法的有效性。(2)自下而上的图像信息包含了目标和背景等区域特征,能够关注到目标区域和其它区域的联系;自上而下的高层语义信息是底层图像信息到顶层输出信息的映射,能够关注到目标的典型特征。基于此,论文提出了基于空间注意力图的目标检测优化算法。该算法将自下而上的图像信息与自上而下的高层语义信息结合,扩大图像中目标的覆盖域从而提取更丰富的目标特征。在Faster R-CNN网络自下而上的检测流程中,通过引入Transformer注意力模块增强图像中各区域间的联系并生成目标的感兴趣区域图,然后将其与自上而下的目标高层语义信息结合,生成完整的目标注意力图,最后根据目标注意力图生成空间注意力图,优化用于分类和回归的目标特征信息。在PASCAL VOC2007、PASCAL VOC2012和MS COCO数据集上的实验结果,表明了该算法有效提高了目标的检测精度。
其他文献
多目标的联合分组与贴标作为计算机视觉以及模式识别领域重要的基础任务,具有广泛的应用前景,如医疗监控,人机交互,智能交通,基于内容的图像视频检索等诸多商业与医疗领域,具
近几年,以银纳米线为材料并采用取向冷冻方法合成三维结构气凝胶成为研究热点。基于此,本文采用银纳米线和石墨烯两种材料,通过取向冷冻和真空灌装方法得到了一种耐拉伸可自
汽车刹车片作为汽车制动系统中的一个重要组件,其质量好坏直接影响行车安全。基于机器视觉的汽车刹车片外观质量检测系统通过机器视觉的手段实现刹车片的字符识别和卡口尺寸
在化石能源日趋减少的情况下,太阳能作为一种清洁无污染的能源一直被我们所使用,提高太阳能的使用利用率是我们当下需要解决的重要问题。科学家研究了一系列将太阳能转化为化
当化工生产过程出现异常时,通过有效的过程监测和故障诊断模型可以准确迅速地检测出故障并确定其类型,为操作人员提供及时可靠的参考。现代流程工业系统中,生产环节之间联系
米氏酸是一类具有独特结构的有机合成中间体,由于其具有较强的亲电性,而且还可作为亲核试剂参与反应,使得米氏酸在有机合成中得到广泛的应用。米氏酸参与的分子内Friedel-Cra
截止至2014年12月31日,在我国的能源结构中火力发电仍占据总装机量的67.41%,所以,作为能够快速高效提升我国火力发电效率的直接途径,提升超临界机组的蒸汽参数这一技术手段具
在社会飞速发展、社会公众需求结构升级、移动互联网改变公众通讯生活方式的大背景下,近年来我国社会传统安全与非传统安全等社会安全领域事件的多发,让社会公众对安全资讯获
如今神经网络发展迅速,相关的机器学习任务已经广泛应用到了生产生活的方方面面。由于神经网络结构复杂,神经元数量庞大,其中能记忆很多信息,包括正常的训练信息或者恶意嵌入
自20世纪80年代以来,人类活动输入到流域生态系统中的氮磷营养盐急剧增长,造成湖泊氮磷浓度持续上升。本研究选择洞庭湖流域为研究区域,应用美国康奈尔大学开发的人类活动净氮、磷输入(Net Anthropogenic Nitrogen Input,NANI;Net Anthropogenic Phosphorus Input,NAPI)模型,对该流域的氮、磷输入进行定量化研究,估算了该流域人类活动氮磷