图像分类注意力机制研究及其在目标检测中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户：ppasu

【摘要】

：

注意力机制已在计算机视觉领域获得了广泛应用。其中,图像分类注意力机制面向卷积神经网络,通过重校准特征以提升模型表达能力。此外,由于目标检测等领域的算法会利用卷积神

【作者】

：

陈博华

【出处】

：

浙江大学

【发表日期】

：

2004年期

【关键词】

：

注意力机制图像识别目标检测卷积神经网络轻量化网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

注意力机制已在计算机视觉领域获得了广泛应用。其中,图像分类注意力机制面向卷积神经网络,通过重校准特征以提升模型表达能力。此外,由于目标检测等领域的算法会利用卷积神经网络提取图像特征,分类注意力机制带来的性能增益能够泛化至这些领域。然而,当前该注意力机制的相关工作存在着一些不足:仅使用全局池化作为注意力描述子,未较好地利用局部上下文信息;参数量与计算复杂度较大;未结合所作用网络结构的特点进行设计等。本课题针对上述问题,对图像分类注意力机制结构设计进行了研究,主要研究内容与创新点包括如下:1.针对仅利用全局池化计算注意力描述子的不足,提出了基于多尺度特征上下文的图像分类注意力机制。该结构利用聚合与分配子模块分别计算多尺度注意力描述子与对应权重。子模块间引入高效的约束,抑制噪声描述子的影响。此外,深度卷积被用于显式地提取上下文特征,以带来进一步性能增益。实验部分,本文通过主流的图像分类数据集CIFAR-100以及Image Net-1K验证注意力模块的性能,通过可视化实验说明模块能够帮助模型更好地聚焦于重点特征,通过目标检测实验验证模块的泛化能力。Image Net-1K分类任务中,嵌入本文模块的Res Net50的分类准确率提升2.30%,超过了拥有2倍模型深度的Res Net101。2.从轻量化网络的特点出发,基于嵌入-扩张的思想提出了通道域-空域特征自适应图像分类注意力机制。当前,轻量化网络空域特征提取能力较弱,通道域与空域特征不平衡。针对该现象,本文首先利用无参数多维度校正以增强上述两维度特征的表达能力;随后利用全连接层与卷积层提升感受野,增强特征信息流动;最后实现空域与通道域增强后特征的自适应融合。本文面向轻量化网络,在Image Net-1K数据集上进行消融实验,并利用轻量化单阶段目标检测模型验证模块的泛化能力。Image Net-1K分类任务中,本文模块在仅引入0.1M额外参数开销下,为Shuffle Net V2带来2.37%的分类准确率提升。3.构建了一套嵌入注意力机制的目标检测系统。本文对轻量化单阶段目标检测算法YOLO V3进行优化,包括结构、训练、推理三方面。结构增强指在骨干网络中引入感受野-空域联合注意力机制,以提升模型纹理特征的表达能力与对目标尺度变化的鲁棒性。训练增强指在训练阶段引入诸如样本混合等技巧,在不提升推理复杂度的前提下强化模型性能。推理增强指对图像预处理、推理、后处理进行流水线优化。VOC目标检测任务中,本文模块在仅引入0.03M额外参数开销下,带来了0.65m AP提升。优化后系统目标检测性能优于YOLO V3,参数量降低18倍,速度提升6倍。

其他文献

基于多任务学习的口腔白斑和扁平苔藓的分割与识别

口腔白斑是指发生在口腔黏膜上的白色或灰白色的斑块状损害,口腔扁平苔藓是一种常见的慢性口腔黏膜皮肤性疾病,两种疾病均属于非传染性口腔斑纹类疾病。其中,口腔白斑属于癌

学位

口腔白斑识别扁平苔藓识别多任务学习DCGAN语义分割

智能合约源代码的安全审计

近几年,区块链技术越来越受各国政府和研究机构的关注和重视。智能合约作为区块链2.0的代表技术,以一段可编程的代码形式部署到区块链上,且一旦部署成功就无法修改。如果智能

学位

智能合约以太坊Fabric安全审计XPath检测模式

视觉SLAM的语义建图优化研究

对于移动机器人而言,传统的同时定位和地图构建技术(SLAM)已经提供了较好的定位和建图的基础。移动机器人可通过视觉里程计对自身的位姿进行估计,通过滤波以及非线性优化算法

学位

ORB-SLAM2目标检测拓扑地图目标姿态估计词袋模型

片上网络下智能化静态任务调度算法研究

在多核技术的发展过程中,如何优化任务调度问题,提升多核并行计算能力一直是人们关注的重点问题。在传统的任务调度问题研究中,诸如任务复制、任务聚簇、列表调度等传统方法,

学位

静态任务调度遗传算法2D-mesh结构编码聚簇任务迁移收敛判断

基于超混合可重构计算阵列的国密算法研究

近年来,随着计算机系统与网络已经深入到社会生产活动的方方面面,当今社会的信息化程度不断提高,在享受利用计算机系统与网络来交换信息所带来的巨大便利的同时,信息安全问题

学位

国密算法密码处理可重构计算FPGA高性能

流式RDF数据多关键词并行检索研究与实现

RDF(Resource Description Framework)是由W3C(万维网联盟)提出的用于描述语义万维网资源的框架。随着链接开放数据(Linked open data)和DBpedia等项目的全面展开,开放的RDF

学位

RDF多关键词Redis流式Spark-Streaming

基于深度卷积神经网络的肺实质分割与肺结节检测研究

随着医学影像技术水平的提升,基于医学影像的计算机辅助检测算法在辅助医生对病变区域进行诊断方面做出不少贡献。肺部医学图像的分析检测常用于医疗健康服务领域辅助医生进

学位

CT图像计算机辅助检测深度卷积神经网络注意力机制肺实质分割肺结节检测

多模态鸡蛋胚胎分类方法研究

流感病毒有高死亡率、高发病率和易传染的特点,流感的爆发严重危害了人类健康,无数人因流感而失去生命。目前,接种疫苗是非常有效的预防流感发生与传播的方法。在流感疫苗制

学位

多模态鸡蛋胚胎卷积神经网络迁移学习时间卷积特征融合

基于内外部语义特征及优先注意力机制的远程监督实体关系抽取方法及应用研究

关系抽取作为信息抽取领域的核心任务,从海量的非结构化文本数据中抽取出实体间关系,形成结构化的三元组信息,为知识图谱构建、推荐及搜索系统、自动问答系统和文本摘要等应

学位

信息抽取关系抽取远程监督分段卷积神经网络注意力机制

《中国使命—从最后一个封建皇朝到人民共和国》第五至八章选译（英译汉）的翻译研究报告

本翻译项目包括英译汉选译和翻译报告两个部分。英语原文文本选自奥黛丽·朗宁·托平博士撰写的《中国使命:从最后一个封建皇朝到人民共和国》一书中的第五至第八章。奥黛丽·朗宁·托平是中加关系史上的重要人物切斯特·朗宁大使之女,传教士哈尔沃·朗宁的孙女。《中国使命:从最后一个封建皇朝到人民共和国》一书曾获得美国出版业协会的著名大奖:普罗斯奖(媒体和文化研究类)并于2013年由美国最古老的出版社--路易斯安娜

学位

纪实传记功能对等理论中国特色词汇翻译方法中加友谊

图像分类注意力机制研究及其在目标检测中的应用

其他学术论文