基于深度学习的行人检测研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hawk1918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测是目标检测领域内非常重要的问题之一,目前已经被广泛的应用于安防,视频监控,无人驾驶等领域。行人检测是近几年来计算机视觉领域备受关注的研究方向之一。它在智能监控系统、辅助驾驶系统、行为分析等领域有着广泛的应用。目前使用较广泛的行人检测算法是基于深度学习的,经过近几年的发展,目前的检测器在大尺度的行人上表现良好,由于一些难以避免的挑战,使得这些检测器的性能大都在小尺度行人检测上有很严重的退化,由于其依赖于数据集以及场景,表现性能也不一致。监控场景下的目标检测由于其分辨率较低,尺度较小,以及形变多样性等特点,检测算法还需要进一步改进来提升检测效果。另一方面,由于数据样本数量的限制或者数据集本身的不平衡等原因,在训练过程中很容易出现不平衡问题,比如正负样本损失不平衡,尺度不平衡,多任务不平衡,空间位置不平衡等问题。针对多尺度目标检测问题,目前的深度学习行人检测方法主要基于多尺度融合,但多尺度融合的方法本质上还是利用的目标本身的特征,针对小目标而言,本身所包含的特征非常少,所以即便多尺度融合方法有效,但还是有一定的上限;针对小目标的解决方法比较常用的是利用目标上下文信息,但目前上下文信息的利用是直接扩展目标候选框的大小,而对目标周围上下文信息并不能有效的选取利用。另一方面,在神经网络训练过程中,会出现正负样本损失不均衡问题,影响训练效果,目前的解决方式有Focal loss等方法,但对两阶段目标检测的方法并不是特别有效。由于行人检测本身属于检测问题,包括分类和回归两个任务,这两个任务之间也存在一定的不平衡问题,即便对于每个子任务而言,不同的样本之间重要程度也不同,因此模型训练存在比较严重的不平衡问题。本文提出了基于深度学习的行人检测算法。本文主要的创新点如下:(1)利用卷积神经网络(Convolutional Neural Network,CNN)提取的特征层的结构特点,对上下文信息进行建模,实现基于有价值上下文信息的行人检测模型。主要包括空间上下文,关系上下文的构建以及上下文信息的融合。首先是根据空间信息将上下文分为两部分,目标上方和目标下方作为空间上下文选取的区域,并根据行人大小按照一定比例选取。然后根据候选框之间的相对位置等信息构建候选框之间的关系,作为关系上下文;最后,为了有效的利用上下文的信息,用具有记忆特性的GRU门控单元在训练过程中选择性的保留上下文信息,实现上下文信息的有效利用。(2)通过分析模型训练过程以及检测结果中出现的问题:类别(前景背景损失)不平衡,多任务不平衡等问题,通过修改分类和回归损失函数以及IoU-Net的设计,一定程度上使得训练过程更加平衡,进一步提高了行人检测效果。
其他文献
舆论动力学的研究对理解、控制和优化真实系统有着重要的现实意义,也为理解人类的行为模式提供了一个独特的视角。研究者常用复杂网络方法研究舆论动力学过程并提出了诸多模型,其中FriedkinJohnsen模型(简称为F-J模型)将微观个体性质与宏观群体现象结合,成为舆论动力学模型的研究热点。F-J模型在不同领域中得到了广泛的应用,但F-J模型中个体对周围群体意见的接受程度设定为时不变常数的假设与社会学对
近年来,随着无人机技术的迅猛发展,它在各方各面的应用中扮演着越来越重要的角色,人们也将其用于陌生环境的探索,而视觉算法的进步让视觉场景重建成为了热门的研究方向。视觉重建以其出色的性能、低廉的价格在众多应用场景脱颖而出,例如AR、VR等。而利用无人机进行视觉场景重建成为了一种全新并极有前景的研究与应用方向。本文对利用无人机进行二维及三维的视觉场景重建进行了研究,设计并实现了相关算法及系统。针对无人机
在全球“绿色照明”的倡导下,高效节能的发光二极管(Light Emitting Diode,LED)照明已广泛应用于人们的日常生活中。LED在实现照明的同时,还可以用来传送信息,这就是近年来吸引较多关注的可见光通信(Visible Light Communication,VLC)。而基于VLC又发展了的一种新的室内定位系统,即“可见光定位系统(Light Position System,LPS)”
双材料微悬臂梁结构是在热传感领域中被广泛使用的结构。利用此类系统优异的温度敏感性,学者们研究并开发了各类双材料热传感器。但是,由于热敏性通常受到用于产生颗粒的材料(例如陶瓷和金属)特性的限制,灵敏度有所欠缺,而如果将聚合物用作其中一个材料可以极大地提高灵敏度。本文旨在评估使用纳米级独立式金(Au)/聚氯乙烯(PVC)双材料颗粒作为温度传感器的可能性,该温度传感器将随温度升高而弯曲,且弯曲程度随温度
随着医疗领域所受到的关注的增多,正在经历爆炸式增长的人工智能(AI)也在为医疗领域带来一场全新革命,即“AI+医疗”。现如今医疗领域的智能化主要集中在利用知识图谱的一些上层应用来辅助医生诊断,减少医生的工作量。因此,如何高效地构建一个可靠的面向中文医疗领域的知识图谱势在必行。然而现在中文知识图谱的构建仍面临着一些挑战,因此如何克服这些难点,构建知识图谱,从而为上层应用提供底层的知识,从知识层面上为
沉管隧道在沿海地区广泛应用的同时,其不均匀沉降引起的开裂、渗水等问题也日益突出,土体地基尤为严重。因此以广州如意坊沉管隧道为依托,对隧道的地基土开展固结和回弹-再压缩试验以及K0固结不排水三轴试验,采用电镜扫描和压汞技术相结合方法对结构性土的微观结构演化规律进行分析。并基于此建立考虑地基土结构性的沉管隧道三维有限元模型,分析沉管隧道沉降问题。研究表明,固结试验中固结系数变化曲线在先期固结压力附近有
光刻技术因低成本、高效率、高分辨率等优点,被广泛应用于微电子领域,随着电子设备微型化和信息存储高量化的发展,提高光刻技术变得非常重要。感光干膜作为一种光刻胶,主要由光引发体系、反应单体和溶剂等组成,其决定了印刷线路板的分辨率,因此开发新型高效的光引发体系对印刷线路板有重要意义。邻氯代六芳基双咪唑(BCIM)因具有特殊的分子结构而具备优良的光解离特性、高分辨率、良好的热稳定性和光致变色特性,是一种工
基于全球卫星导航系统的卫星定位是当前使用最为普遍的定位方法,然而在城市复杂场景等环境中,由于多径信号的存在,卫星定位的精度会受到一定影响,如何处理导航卫星信号中包含的多径信号成分,是卫星导航领域研究中的一个重要的课题。当前由我国自主设计和研发的北斗卫星导航系统的建设已经进入第三阶段,对新播发的B1C、B2a等新体制信号处理算法的研究,也具有较为重要的意义。本文以城市复杂场景等多径信号环境下对卫星导
财务共享服务平台的建设对于企业集团的进一步发展具有重要意义。本文以现阶段企业集团财务共享平台建设存在的问题为出发点,积极探讨相应的解决对策,首先对于建设财务共享平台的必要性进行阐述,进而结合实际,分析当前企业集团财务管理工作的局限性,有针对性地提出了该平台建设的主要改进策略。
垂直轴风力机具备万向受风、维修成本低、气动噪声小等优点,但由于其启动性能与风能利用率的问题导致其在实际工程中的应用受到了很大的限制。通过将垂直轴风力机转移到海上风环境内工作并选择Φ型作为风力机的结构形式可以有效地解决启动性能差以及风能利用率低的问题。但是漂浮式Φ型垂直轴风力机的气动性能十分复杂,因此,针对漂浮式Φ型垂直轴风力机的气动性能的研究具有十分重要的价值与意义。采用CFD方法研究了漂浮式Φ型