基于深度学习的图像目标检测算法研究及应用

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:xiaoxu0911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,越来越多的数据需要被存储和处理,这不仅需要海量的存储设备,还需要计算机拥有强大的数据处理能力,从而高效地完成数据处理任务。在这样的时代背景下,深度学习应运而生,并迅速应用到制造、医学,交通、金融等各个领域。深度学习技术的快速发展以及大规模带标注图像数据集的广泛使用,使得计算机视觉技术在图像处理方面有非常大的突破,尤其是在目标检测领域。
  计算机视觉中的目标检测任务主要包括两大部分:目标对象的定位和分类。目标定位是对目标对象进行特征提取,并将提取到的特征利用有锚框或者无锚框的方式进行定位,进而预测目标对象在图像中的位置。之后,目标分类模块将检测到的对象进行分类,得到最后的分类结果。一方面,在二维目标检测任务中,图像的构成普遍比较复杂(例如,图像中包含单一或许多目标对象,图像背景信息复杂,目标物体难以区分),目标检测任务也会变得相对困难。另一方面,从人的视角出发,图像中存在的对象不仅包含二维信息,还包含相应的三维信息。所以在研究提取二维目标信息的同时,也需要对目标对象的三维信息进行提取,从而重构三维目标对象。基于此,本文分别针对二维目标检测任务,联合二维目标检测和三维重构任务,提出了基于深度学习的目标检测改进算法。
  对于二维目标检测任务,本文提出了一种基于新型级联并行检测器的Grid R-CNN的目标检测算法。该算法通过并行有锚分支和无锚分支的方式来构建检测器。在有锚分支中,检测器将Grid R-CNN的目标定位方法与GA-RPN的形状预测模块方法相结合来预测更精确的锚框形状。在无锚分支中,检测器通过并行一个FSAF分支以减少重叠锚框的数量,进而获取高质量锚框。最后,本文使用检测器级联的方法,通过训练不断提高Intersection-over-Union(IoU)阈值的检测器来完成锚框确定和目标分类,从而进一步提高目标检测的准确度。经实验证明,提出的算法在Pascal VOC2007和COC02017两个数据集上的表现总体上好于对比算法。
  在二维目标检测与三维重构任务方面,本文提出了一种基于对抗融合Mesh R-CNN的联合二维目标检测和三维重构算法。该算法首先使用DCGAN模型根据真实图片生成对抗图片,然后通过GA-RPN进行二维目标检测。为了获取鲁棒性更强的体素,该算法通过Pix2Vox实现二维像素到三维体素的转换并进行体素融合,提高三维体素生成的质量。最后,使用顶点对齐和主邻域聚合网络(Principal Neighborhood Aggregation network,PNA)来进一步细化三维网格,从而得到目标物体的最终三维网格模型。实验结果表明,提出的算法在Pix3D数据集上的表现总体优于对比算法。
  本文针对二维目标检测任务以及联合二维目标检测和三维重构任务,分别提出了相应的创新性算法,这两种算法的实验验证都取得了较好的效果,具有一定的理论创新性和应用价值。
其他文献
水质检测是水保护的前提和基础,生化需氧量(Biochemical Oxygen Demand,BOD)、化学需氧量(Chemical Oxygen Demand,COD)、亚硝酸盐能够很好地反映水污染的程度。研究上述参数的快速检测,可为水资源保护提供有效的数据支持。研究基于高光谱技术的水质指标定量研究,可快速、无接触、大面积的实现水质的实时检测,对我国目前的水污染治理问题提供理论依据具有极为重要的
学位
在高校智慧校园建设过程中,学业预警作为智慧校园的主要组成部分,其主要利用数据挖掘技术保障学生顺利完成学业,同时为高校提供一定的决策支持。本文以某校相关部门的研究课题为背景,旨在搭建适用于该校的学业预警系统,保障学生顺利完成学业。主要研究内容分为“学业预警模型研究”和“学业预警系统设计与实现”两个部分,其详细内容如下:在学业预警模型研究的过程中,以某校本科生的历史成绩数据、一卡通消费数据和图书馆刷卡
学位
蛋白质二级结构预测在生物信息学领域具有重大意义,对充分了解蛋白质的功能和结构是十分必要的,科学家们从未停止对蛋白质结构的研究。本文主要使用了深度学习模型来进一步提高蛋白质二级结构的预测准确率,本文的主要工作包括以下几个方面:(1)基于优化的卷积神经网络的方法。首先本文对蛋白质数据进行处理,将CASP11数据集作为验证集,并建立初始的卷积神经网络模型,然后将卷积神经网络的层数、学习率、梯度冲量和正则
学位
多输入多输出(Mutiple-Input Mutiple-output,MIMO)通过其空间复用和分集能力可有效提升无线通信系统的吞吐量和可靠性,是新一代移动通信系统中的关键技术之一。预编码通过在发射端对发送信号进行预处理,可有效抑制数据流间干扰,从而提升系统容量和资源利用率,因而是MIMO系统性能得以实现的重要技术手段。传统预编码技术一般通过统计分析和高级信号处理技术设计固定的算法,对环境的动态
近年来,物联网、人工智能以及区块链等技术的快速发展使得人们生活质量更加优越,人们对物联网设备(智慧手环、智能音箱和手机等)需求量不断增加。然而,大多物联网设备被制造时都存在缺少防火墙软件和密钥口令较弱等安全问题。攻击者可以利用这些存在安全隐患的物联网设备对物联网中的其他物联网设备发动分布式拒绝服务攻击(Distributed Denial of Service,DDoS)消耗被攻击者系统资源或网络
蛋白质是生命活动的主要承担者,充分了解其结构和相互作用对于疾病的治疗及新型耐抗性药物的研发具有重要意义。然而已知蛋白质的数量增速极快,通过直接观测的方式确定其三维结构面临着成本过高,速度过慢的问题,因此如何成功预测蛋白质三级结构成为了热门研究方向。本研究创新性运用生成对抗网络(GAN)和双向长短时记忆循环网络(BiLSTM)技术对蛋白质二级结构进行预测,有效发挥了承上启下的关键任务,为解决直接利用
学位
制造业是我国的支柱产业,随着中国制造2025的提出,数字化、网络化、智能化是我国制造业未来发展的基本方针。但随着制造业的快速发展,其设备参数关系复杂、关系相互制约、不易管理人员分析等问题也随之出现,而设备参数的设定又是决定产品质量的重要因素之一,因此参数优化是整个制造过程优化中重要的一部分。而复杂的数据关系可以利用知识图谱来进行梳理,可以让管理人员更加容易的理清其中的关系,因此如何利用知识图谱对参
学位
随着大数据时代的到来,与其关系紧密的人工智能技术得到了跳跃式的发展,文本信息的数量不仅展现出跳跃式的增长趋势,还逐渐显现出多标签、多粒度,高复杂性的特点。为了对文本信息进行更为效率的分类管理,实现文本内容的有效保留和准确过滤,研究者们近年来开始关注于自然语言处理领域中最具有普适性的多标签分类技术。基于深度学习的多标签分类方法能够自动地为文本序列中具有显著意义的信息赋予标签,进而实现对文本数据的高效
学位
随着计算机和多媒体技术的高速发展,网络信息化已然成为社会和经济发展的重要趋势。政府、军事、文教等诸多领域的海量信息都在网络空间中存储、传输和处理。开放的网络环境难以避免的吸引了来自世界各地的各类网络攻击(例如信息截取、信息窃听、数据篡改、数据伪造等)。为了保障网络数据传输的安全性,研究者提出了可逆信息隐藏(Reversible Data Hiding,RDH)算法,发送者通过该算法将秘密信息以肉眼
学位
抑郁症是一种常见且高发的精神障碍疾病,现有的评定过程复杂且相对主观,其有效诊断问题亟待解决。面部活动是人情绪变化的主要外在表现,通过面部特征可以研究抑郁症患者的心理活动和精神状态。抑郁症患者长期受疾病的影响,肢体动作方面临床表现为动作迟缓、身体协调能力下降、反应滞后等特点。本文主要基于面部特征、肢体动作和多模态抑郁症识别展开研究,主要工作为:(1)基于面部特征抑郁症识别。面部特征数据采集自受试者汉
学位