基于深度学习的视频行为动作识别及分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huangyi101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能设备的普及和信息技术的迅猛发展,视频已经成为人们生产生活中不可替代的信息载体。为了对抗视频数量的爆炸式增长,理解分析视频内容,并扩展应用到现实场景中,有助于提高人们的生产生活水平。本文针对发生在公园、停车场等公共场所中的危险性行为,设计实现了一个基于深度学习的视频行为动作识别模型,为设置在公园、停车场等公共场所中的监控设备添加自动识别并反馈危险性行为的功能,为监控人员提供一种智能化辅助解决方案。本文提出的视频行为动作识别模型是一种通用的双人交互识别模型,借助特定场景下的不同数据集,本文提出的模型可以被拓展应用到其他场合,如智能识别监狱中囚犯的异常行为、辅助理解课堂里学生的交头接耳等。本文在UT-Interaction数据集上训练模型,其中将“推”、“打”、“踢”行为定义为危险性行为,当模型识别出此类行为时会给予一定的反馈信息。为了避免因数据集在规模和多样性方面的有限性而带来的过拟合问题,本文提出了一系列过拟合优化策略:如通过数据增强技术扩充样本集;在模型中引入dropout和BN技术;使用跨数据集、跨任务以及跨模态交叉预训练方法为模型提供有价值的和稳定的权值初始化等。本文首先提出基于注意力机制的循环姿态识别模型,创新性地引入人体姿态估计模型,提取描述人体姿态的关键点和肢干的视频图像空间信息,然后结合Bi LSTM模型和注意力机制,根据视频帧对识别结果的贡献度自动分配注意力权重,建模帧间时序信息。通过实验证明人体姿态估计模型、Bi LSTM模型以及注意力机制等组件能够为模型带来性能上的提高,证明基于注意力机制的循环姿态估计模型在行为识别任务上的有效性,证明过拟合优化策略在解决因数据集小而引起的过拟合问题中起到的作用。基于注意力机制的循环姿态估计模型虽然能够提取视频的时空信息,但它专注于捕捉较粗糙和长期的时间结构,为了保留低级形式的时间相关性,本文采用光流预测模型,引入光流来显式编码视频运动信息,并对深度卷积神经网络结构和光流场取值范围进行适当调整以适应对光流数据的学习。最后本文借助聚合函数联合基于注意力机制的循环姿态估计模型和光流预测模型。实验结果表明两个子模型能够学习到互补的信息,提高联合模型的识别准确率。
其他文献
开展小天体探测任务能够有效提升我国深空探测技术水平,推动行星科学的发展。小天体三维建模是深空探测的一个重要组成部分。小天体三维建模需要的图像数据数量大、分辨率高,一方面会使得探测器进行频繁的轨道机动来拍摄足够数量的图像,另一方面会使得探测器数据传输耗时增加。所以进行小天体三维建模的观测任务规划,在满足小天体三维建模图像数据需求的前提下,尽可能的节约探测器燃料资源与通信资源,是小天体三维建模的一项重
在软件开发、测试、维护和使用过程中,会有很多软件缺陷被发现。开发者通常使用缺陷追踪系统管理软件缺陷,但由于开发过程高度并行的特点或者在不同的产品中共用相同的组件等原因,相同的缺陷很容易被不同人员多次提交,从而导致缺陷追踪系统中存在大量重复报告,影响后续的缺陷分派与修复,因此研究者们提出多种自动重复缺陷报告检测方法。以往研究将重复缺陷报告检测视为检索或分类任务。检索任务中基于信息检索的重复缺陷报告检
近年来,互联网技术应用在各个行业,软件数量和规模呈现爆发式增长。开发人员在开发程序的过程中由于疏忽或者编程语言的限制,使得其中产生了缺陷即漏洞,从而被恶意攻击者发现并利用。随着软件安全问题的日益突出,研究人员也越来越重视漏洞检测方面的研究。然而由于软件的更新迭代导致软件结构的复杂化,仅仅依靠研究人员进行人工审查已经远远无法满足日益增长的检测需求。随着深度学习技术的广泛应用,基于深度学习的漏洞检测也
人类可以通过视觉、听觉和触摸等多种感官来察觉世界,当人类看见一个物体时,会联想到触碰它时是什么感觉。在本文的工作中,这里建立了视觉和触摸之间的跨模型连接,将视觉信号和触觉信号都以图片信号的形式,通过输入视觉图像输出触觉图像从而达到预测触觉信号的目的。这种跨域建模任务的主要挑战在于两者之间的的规模差异,可以理解为虽然我们的眼睛可以一次感知整个视觉场景,但人类只能在任何特定时刻感受一个物体的一个小区域
手势是一种人类的肢体语言,不仅包含十分丰富的信息而且在人与人之间交流时便捷且自然,因此手势识别逐渐被应用于人机交互领域。手势识别按照手势的分类分为静态手势识别和动态手势识别,由于动态手势可以反映手势的连续变化、表达更加复杂的手势信息,因此动态手势识别具有更加广阔的应用空间。本文对基于计算机视觉和深度学习的动态手势识别方法进行了研究,综合考虑识别速度、识别正确率、应用平台的显卡规格等因素,提出了两种
随着人工智能技术的不断发展,人机交互的需求日益提高。其中,手势识别技术在人机交互领域中的应用很是广泛。手势识别是指利用信号采集设备对个体的手势运动姿态进行采样,传输至计算机,使用模型算法对采样数据进行处理和分析。基于可穿戴传感器的手势识别系统具有便携高效,交互性能良好的优点,在商业方面的前景非常广阔。实际应用场景中,手势识别技术容易受到诸多因素的干扰。包括在环境因素下手势动作前后的无法控制的抖动、
近年来,随着机器人技术和人工智能的发展,智能机器人越来越多应用在生活中。同时,普遍认为相对于单个机器人工作,机器人集群的协同工作效率更高。比如在系统容错性方面,多机器人协同工作的容错率很高,不会因为单独的某个机器人的出错或损坏导致系统整体崩溃,而且利用机器人集群进行协同工作能够完成更为复杂的任务。ROS是目前机器人领域中最受欢迎的开源平台之一,可以有效地将底层机器人硬件封装起来,并提供大量开源工具
随着人工智能、大数据技术的飞速发展,数据资源愈发丰富,而对于数据资源的利用也越来越关键。一些与人类本身相关的医疗数据往往涉及到重大利益,这些数据的拥有方也因此无法随意交换数据,这阻碍了人工智能技术在医疗领域的发展。因此,生物医疗健康领域目前面临着因数据无法共享而产生的数据孤岛问题,针对这一问题,联邦学习成为了解决它的答案。而联邦学习过程中,多方通信节点需要进行数据对齐的过程,然而与人相关的数据在I
图像扫描显微(Image Scanning Microscopy,ISM)成像方法具有高分辨率成像特性,在生物医学领域具有广泛的应用前景。ISM在共焦显微的基础上使用阵列扫描方式实现高分辨率成像,可将分辨率提升至衍射极限的2倍,且实验装置简单、易于实现,成为超分辨显微成像领域的研究热点。但该方法需要采集大量图像,数据处理量大、成像速度慢,受扫描范围和物镜数值孔径的限制,无法满足大视场快速成像需求。
软件漏洞严重性可以帮助测试开发人员合理地分配有限的资源,优先修复更加严重的漏洞。然而,漏洞的发布和严重性的人工评估之间存在时间滞后,可能会导致“零日攻击”问题。因此,利用漏洞描述、源代码等信息自动、及时、准确地预测软件漏洞严重性具有一定的现实意义。现有方法存在以下问题:(1)每个项目的CVE漏洞描述数据量少,且不同项目的漏洞描述语言风格差异较大;(2)忽略了多个CVSS漏洞特征之间的共享信息;(3