【摘 要】
:
随着私家车的普及,因危险驾驶行为导致的交通事故日益增多,基于视频的危险驾驶行为检测技术具有重要的应用研究价值。危险驾驶行为具有自发性与偶然性,采用传统视频行为检测方法检测驾驶员行为难免会造成信息滞后。并且驾驶员行为蕴含时序特征,对驾驶员行为进行高效的建模也是行为检测中重要的挑战,想要实现基于视频的危险驾驶行为检测技术并非易事。本文从计算机视觉的角度出发,以视频帧,视频时空特征、时空注意力机制为切入
论文部分内容阅读
随着私家车的普及,因危险驾驶行为导致的交通事故日益增多,基于视频的危险驾驶行为检测技术具有重要的应用研究价值。危险驾驶行为具有自发性与偶然性,采用传统视频行为检测方法检测驾驶员行为难免会造成信息滞后。并且驾驶员行为蕴含时序特征,对驾驶员行为进行高效的建模也是行为检测中重要的挑战,想要实现基于视频的危险驾驶行为检测技术并非易事。本文从计算机视觉的角度出发,以视频帧,视频时空特征、时空注意力机制为切入点,开展对危险驾驶行为检测的研究。论文的具体研究工作分为三个部分:(1)提出一种基于视频帧的危险驾驶行为检测方法。首先基于视频图像低层特征和关键帧历史决策信息判别当前帧的类型;其次,根据视频帧的类型采用相应的方式提取视频图像高层特征,使用深层卷积神经网络提取关键帧的高层特征,通过特征传播的方式提取非关键帧高层特征;最后,基于状态转移和LSTM网络设计了两种基于帧的行为检测方法,用于检测驾驶行为视频中危险驾驶行为的类别。实验结果表明,基于视频帧的危险驾驶行为检测方法可以有效处理因提取每帧视频图像高层特征导致的检测延迟问题,在保证检测精度的前提下,将检测速率提高了约5FPS/秒。(2)提出了一种基于视频时空特征的危险驾驶行为检测方法。首先,将驾驶行为视频进行空间流与时间流拆解,采集驾驶行为视频双流数据;其次,基于视频空间、时间序列,通过卷积的方式分别提取驾驶行为视频的空间特征与时间特征,并进行特征融合;最后,以Conv LSTM网络为基础单元,设计了一种基于Conv LSTM级联的网络模型,并用于实际的危险驾驶行为任务中。实验结果表明,该方法可以充分利用视频空间、时间特征的互补性提取驾驶员行为的语义信息;其次,级联结构可以由浅及深的学习驾驶员行为特征,将危险驾驶行为平均检测准确率提高了约1%。(3)提出了一种基于时空注意力机制的危险驾驶行为检测方法。通过引入注意力机制获取驾驶行为视频的显著性特征。首先,通过检测驾驶员轮廓,约束空间注意力的关注范围;其次,使用LSTM网络计算视频图像各子区域的空间注意力权重,并提取视频的显著性空间特征;同时,基于LSTM网络计算驾驶行为视频每一帧的权重,并提取视频的显著性时间特征;然后,基于注意力机制引导空间特征与时间特征融合,计算显著性时空特征;最后,使用基于Conv LSTM级联的网络实现危险驾驶行为的检测。实验结果表明,通过引入时空注意力机制,可以提升网络对各类危险驾驶行为的描述能力,并将危险驾驶行为检测的精度提高了约1.5%。
其他文献
目的:应用扫频源光相干断层扫描(swept-source optical coherence tomography,SS-OCT)及光相干断层扫描血流成像技术(optical coherence tomography angiography,OCTA)研究特发性黄斑前膜(idiopathic epiretinal membrane,i ERM)手术前后黄斑区微结构变化,以术前预估患者术后视力情况。
目的:随着现代医学模式的转变,身心疾病越来越受到社会关注,诸如青光眼、中心性浆液性脉络膜视网膜疾病、甲状腺相关眼病、糖尿病视网膜病变等眼部疾病已被证实与A型性格存在一定相关性。研究发现A型性格个体因为容易处于精神应激状态,可引起体内炎症因子释放增多以及微循环障碍,可能影响泪液分泌功能和眼表稳态,导致干眼的发生,而B型性格个体由于不容易发生应激状态,则不容易引发干眼。同时不健康的用眼习惯和生活作息规
在统编教材背景下,教师对教学的主导不应仅仅停留在课堂上,课后还要作出合理的引导,不断拓展,这样一来,因材施教,设置个性化的语文作业就变得尤为必要。一、作业尽量多样化,激发学生的学习兴趣首先,在设置作业的时候要避免短时间的重复。比如,今天抄生字、词,明天可以背古诗,后天可以写课文随感,第四天可以用一句话归纳文章主旨等。这样延长了作业重复的周期,一定程度上可以缓解学生的厌学情绪。
目的:为进一步了解Dkk1在前列腺癌中的表达及在临床预后中的意义,同时探索Dkk1在前列腺癌骨转移过程中所发挥的作用,为前列腺癌的诊断和治疗提供新的方向。方法:通过构建前列腺癌细胞株,比较不同转移潜能前列腺癌中Dkk1蛋白质表达差异,通过在组织芯片和石蜡切片中进一步比较正常前列腺组织与前列腺癌组织中Dkk1的表达差异。最后利用公共数据库数据,通过SPSS和R等软件进行临床特征和生物信息学分析,探究
目的:本实验通过研究在丹参注射液作用下,血管内皮生长因子(VEGF)、整合素αvβ3在子宫内膜中的表达情况,进一步探索丹参注射液对子宫内膜容受性的影响。方法:收集2020年01月-2020年12月于贵阳市妇幼保健院行宫腹腔镜联合探查术的25例不孕症患者的子宫内膜组织,其中:输卵管梗阻患者9例、PCOS患者8例、子宫内膜异位症患者8例,术后病检子宫内膜增殖期13例,分泌期12例。无菌条件下将取出的子
泽那基斯既是二十世纪作曲大师,也是建筑大师,其双重身份对其音乐创作影响至深。本文通过分析管弦乐作品《Jonchaies》,试图就其音高形态与有机建筑形态进行解析和比对,解读泽纳基斯的音乐创作与建筑形态观的关联和融合。
随着无线通信技术的高速发展,用户在通信过程中对系统安全性能提出了更高的要求。无线网络给用户带来便利性的同时也存在安全隐患,其开放的通信环境使得无线传输很容易受到被动窃听、主动干扰等恶意攻击,这激发了广大研究工作者寻求利用物理层信道特征来提高系统安全性能。本文主要研究了在多用户无线通信网络中的物理层安全问题,通过引入人工噪声、智能反射面等关键技术,并结合多用户调度、功率分配优化等方法,提高多用户无线
基于神经网络对图像中篡改现象进行检测的方法在数字图像取证领域具有巨大的优势,而目前只采用目标检测模型完成鉴别任务的相关工作较少。本文以人脸篡改检测为目标场景,提出相关方法,并在场景中的验证其效果,分析其优劣处,主要工作如下:(1)针对单一识别网络对篡改图片识别性能低的问题,在YOLOv4模型基础上提出一种融合多源视觉线索的人脸篡改检测模型。首先采用多种滤波器提取图像频域和噪声域的特征,并将提取到的
近年来,随着智能移动终端数量的急剧增长,移动通信系统对通信传输速率以及通信设备接入量的需求也日益增加。而多输入多输出(Multiple Input Multiple Output,MIMO)技术和非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技术对空间资源和时/频域资源的充分利用为目前通信系统中的高速率传输和大规模连接提供了坚实基础。因此,本文围绕MIMO
随着中国经济的飞速增长,社会各界对于发票的需求也随之增加。发票是各个工作单位的财务部门核对经济活动并进行报销的重要凭证。目前发票报销流程繁琐、效率低下,且需要大量的财务人员,极大的浪费了社会资源,因此发票报销的智能化是大势所趋。本文利用计算机视觉软件库和深度学习方法,完成了对发票图像的校正、分类等任务,并组合硬件设备实现了发票报销的全过程。首先,本文根据发票的不同特征,完成不同倾斜图像的校正。针对