基于深度学习的图像多目标检测算法的研究与改进

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:pingpinggangan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为计算机视觉领域内的主要研究方向之一,目标检测的核心目的是对每张输入图像的待检测目标进行分类和定位。自2011年以来,在深度学习的辅助下,目标检测任务在医学影像、军事运用、信息挖掘等领域取得了诸多成果。然而基于卷积神经网络的目标检测技术依旧存在诸多问题。首先现阶段常见的轻量化方法忽略了特征集合自身的特点;其次,不同尺寸的目标的检测精度参差不一,检测效果处于劣势的小目标对整体精度的测算带来很多负面影响;最后,随着检测技术的发展,anchor box对检测算法带来的掣肘因素越来越明显。因此,本文针对上述几个方面展开分析与研究,主要研究内容与创新点如下:1.特征提取网络的平衡化。针对深度学习中的骨干网络在使用剪枝、蒸馏等方法的过程中降低了模型特征丰富性的问题,提出了特征网络平衡化模块,该模块充分利用了特征图集合自身潜在的特性,采用逐点分组卷积和增强的通道混洗AE-Shuffle来优化本体特征图的生成,同时引入Shadow Module子模块高效地生成影子特征完成对本体特征图的丰富与补充,同时参考现有典型的轻量化网络的结构设计了改进的EL-MobileNet算法,该算法能够在相对较低的运算量的基础上构建出相对更为丰富的特征集合,进而提升了轻量化骨干网络的分类精度。2.特征金字塔构建合理化。针对弱小目标在卷积池化过程出现的特征消失,进而难以检测的难题,本文提出了均衡化特征金字塔模块EF-FPN,首先针对FPN自顶向下过程中出现的特征稀释问题,提出了多层融合子模块,该模块将顶层原始语义信息进行有效保护,并解决原始金字塔结构存在的非相邻层特征无法联系的问题,在此基础上,根据小目标对底层特征的强依赖性,利用超分辨SR技术设计了小目标信息补偿模块,利用可靠信息源完成对底层层级特征的丰富,使得小目标检测精度得到有效提升,进而提高整体检测精度。通过对比试验和直观的检测效果展示验证了该模块的有效性。3.样本贡献均衡化。本文在FSAF模型基础上结合其他几点改进模块设计出了改进的EAFC-Net检测算法。该算法基于anchor-free思想,摒弃了anchor box类算法中锚框所产生的大量无效锚框的弊端。并根据锚点与中心点的距离关系加入了锚点权重因子WAF模块,通过优化注意力侧重机制,让模型更多的关注质量高的信息而忽视低质量信息,使得样本对最终检测结果的贡献更为均衡。
其他文献
随着抑郁症日渐成为社会关注的焦点问题,在早期可治愈阶段正确诊断抑郁症成为医学研究的一大热点和难点。核磁共振因其成像参数多、扫描速度快、组织分辨率高和图像更清晰等优点,在检测早期病变方面具有独特优势,已经成为肿瘤、心脏病及脑血管疾病早期筛查的有力工具,近年来在抑郁症研究方面也有广泛应用。如何提升分类的性能一直是将机器学习算法应用于抑郁症筛查问题的研究热点。本文借鉴现有的研究成果,针对传统机器学习算法
推荐系统可以为用户提供感兴趣的推荐项目,在互联网应用中起到重要作用。而图神经网络作为一种新兴的图表示学习方法,可以基于图的结构为用户和项目生成低维特征表示,进而为推荐系统提供包含节点邻居结构信息的特征输入。因此,基于图神经网络的推荐系统具有重要的研究价值和应用前景。近年来,针对图神经网络在推荐系统中的应用研究成果颇多,但其中不少方法仍然存在下列问题:1.针对邻居节点的均匀采样方法可能会忽略掉重要邻
情绪识别研究对于理解掌握人体的情绪状态至关重要,目前已在人机交互、远程教育以及医疗保健等领域得到广泛应用。随着情绪相关信号如文本、脑电等采集设备的发展,如何有效提取信号的情绪特征,提高情绪识别准确率是亟须解决的研究问题。本文提出基于文本、脑电和多模态融合的情绪识别研究模型,改进不同场景下的情绪识别方法模型,设计实现基于情绪监测的高血压管理系统。论文工作内容如下:1.针对文本情绪识别词嵌入缺乏句子上
航空图像目标检测作为计算机视觉目标检测的分支领域,不仅能够应用在军事侦察、导弹制导、无人机武器系统等国防领域,而且能够应用在交通监控、资源探测、环境监测、城市规划等民生领域。航空图像具有视场变化大、旋转变化大、背景复杂等特点,航空图像目标检测任务具有目标尺度变化大、目标疏密变化大、目标重叠、遮挡等难点。在研究现状下,当前基于CNN(Convolutional Neural Network)的航空图
交通环境是一个具有多个信息源并且极其复杂的动态场景,包括与当前驾驶任务高度相关的目标和其他冗余目标。有经验的驾驶员在视觉选择注意机制的作用下可以快速完成信息的筛选过滤,并将注意力集中在车辆、行人、摩托车、交通灯、交通标志等显著性区域来保证驾驶安全。尤其当出现雨天天气时,由于能见度低、路面湿滑、雨水滑落和雨伞遮挡行人等因素使驾驶任务变得更加困难。另外交通环境是瞬息变化的,一旦忽略了某些与驾驶安全相关
机器问答技术是自然语言处理技术中发展最迅速也是最重要的技术之一,机器问答技术可以帮助人们从高速发展的互联网和信息技术产生的巨量文本信息中快速便捷地获取问题的答案。本文主要对长篇幅上下文多跳问答技术进行了多方面的研究,提出了基于支持句推理和精准问答的两阶段长上下文多跳问答框架和多种深度学习模型,来帮助用户快速地从长篇幅的文本信息中得到问题的答案。本文的主要工作如下:1.本文提出了基于支持句推理和精准
外骨骼作为综合性的科技产物,在军事、医疗、娱乐等领域应用前景广阔。外骨骼由于其自身结构的特殊性,精确的动力学模型无法直接获得,因此研究外骨骼动力学模型辨识和人机交互控制有着十分重要的意义。本文以实验室自主设计的二自由度下肢外骨骼为研究对象,首先针对传统无模型控制的局限性,给出外骨骼拉格朗日(Lagrange)动力学模型的建立过程以及利用智能群优化算法对动力学模型中的未知参数辨识进行辨识的过程。然后
目前下肢助力服可以包括柔性助力服与刚性助力服,下肢刚性助力服多为刚性连杆构成,存在结构复杂、重量大、运行功耗大等众多缺点。下肢柔性助力服以柔性材料驱动实现助力,拥有穿戴方便,重量轻等众多优点。因此,研究下肢柔性助力服的控制策略对各个关节实现高效助力有着重要研究意义。本论文对下肢柔性助力服的控制策略进行研究,主要研究机主人辅运动下的控制策略、人主机辅随动控制下的控制策略以及随动控制参数优化。建立下肢
由于人民生活水平的逐步提高,对于吃穿住行的选择也变得以舒适、便捷为首要条件,在“行”这一方面,私家车逐渐成为大众出行的交通工具,在国庆等节假日交通流量更是成倍的增长,交通事故的发生也是呈增长的趋势。分析其原因,驾驶员在疲劳和酒后驾驶造成的事故占比最高,其中酒驾行为可以通过酒精含量探测器去管控,而疲劳驾驶更多的是依靠驾驶员自身去管控。因此,设计一款疲劳驾驶检测系统在实际生活中显得尤为重要。本文在完成
在依靠实时着色方式来着色三维场景从而得到着色效果的应用领域中,例如游戏、工业仿真以及建筑设计等领域,通常需要着色效果逼真的图像为用户提供身临其境的感觉。实时着色可采用的光照模型有很多,例如Lambert光照模型、Phong光照模型以及PBR光照模型等。为了使实时着色的效果更加逼真,在实时着色时一般采用PBR光照模型来对三维场景着色,PBR光照模型会对三维场景中模型的材质预先设定,这样在光照计算时会