基于深度学习的视频动作识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:daidaide21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频动作识别是近年来计算机视觉领域研究热点之一。不同于图像信息,视频动作中连续、多变的时空域信息,使得从复杂的交互场景中识别人的动作变得十分困难。为此,本文基于深度学习方法对视频动作识别展开如下研究。1.针对基于2D CNN(2 Dimension Convolutional Neural Network)的动作特征导出缺乏层次性以及动作细节感知能力不足的问题,本论文设计了一种基于时空双注意力网络模型的动作识别模型,多级地对卷积神经网络的视觉感知特征进行导出,旨在丰富动作表征的层级粒度性。同时论文针对CNN-LSTM(Convolutional Neural Network-Long Short Term Memory)网络模型中采用FC-LSTM(Fully Connected-Long Short Term Memory)网络容易丢失空间特征信息以及缺乏对关键特征信息筛选能力的问题,模型设计中先引入了两类LSTM单元对不同层级不同维度的特征进行时序建模,再通过设计时间注意模型和联合时空注意力模型来提高对关键信息的筛选能力。为了权衡层级特征的表征贡献,本文设计了融合模型,时空特征在通过PCA(Principal Component Analysis)降维后进行加权融合,实现了对时空双注意力网络的端到端训练。最后,在多个视频动作数据集上的实验表明,此模型能取得较好的识别精度,同时,可视化分析也展现了模型有效提取关键时空特征的能力。2.针对C3D(Convolution Network 3D)模型的浅层性导致难以深度描述动作规律而影响识别精度的问题,提出了一种基于C3D网络结构展开的残差注意力动作识别模型。针对3D卷积核运算的低效性,该模型首先将3D卷积核沿着时空维度拆解,得到轻量级的2D空间核与多个尺度的1D时间核,以缓解3D卷积核的计算负担。接着通过引入通道注意力与空间注意力机制,赋予模型灵活的特征筛选能力。进一步地,通过堆叠各个残差模块构建残差注意力网络。除此之外,基于所设计的残差网络本文构建了双流动作识别模型,针对双流网络缺乏时空特征交互的缺点,模型采用多级融合策略并结合多层级深度特征对识别结果进行联合决策,以充分发掘双流模型的时空表征潜力。最后通过PCA算法对融合后的特征描述子降维后,训练多分类SVM(Support Vector Machine)作为分类器实现对动作的识别。实验结果表明,设计的残差注意力网络能很好地平衡模型训练效率和识别精度,同时,双流动作识别模型在数据集UCF101的识别效果上也得到了提升,验证了模型的有效性。
其他文献
在脑-机接口(Brain-computer Interface,BCI)系统中,脑电信号(Electroencephalogram,EEG)因在控制方面具有安全、方便、响应快的优点,是当前最受欢迎的控制信号之一。与此同
心率是一项反映人体生理和心理状况的重要生理信号,其包含了丰富的健康状况和情绪活动信息。对心率进行实时准确的测量在诸多领域有着广泛应用,例如疾病预防、训练辅助、健康
邹韬奋是我国近代著名的政论家、出版家、新闻记者,更是一位关注青年问题和启蒙青年思想的“青年导师”。他关于青年问题的文章和著述,阐释的关于青年的观点和看法,形成了他独具风格的青年观。特别是在主编《生活》周刊时期,由于《生活》周刊广泛的影响力,其在报刊上公开发表的关于青年问题的观点和看法,很大程度上影响了青年的人生抉择,对青年思想有重要的启蒙作用,许多有志青年在他的影响下积极参与革命,为人民解放而奋斗
反讽,既是修辞手法也是写作风格,在小说里十分常见,作家和读者都为之着迷。《纯真年代》字里行间充满伊迪丝·华顿高超的反讽技巧,她的反讽与以下主题有关:婚姻的失败,美国上
研究目的:分析器官捐献肾移植的临床病理资料,探究其中对移植后肾功能有预测作用的因素。方法:回顾性分析2014年1月至2016年11月在华中科技大学同济医学院附属同济医院器官移植科接受单侧肾移植的227例受者的临床病理资料。采用电话、网络平台、返院复查相结合的方式随访,随访时间截至2018年7月31号。采用均数±标准差进行连续型变量的统计学描述,将三个月及一年的肾小球滤过率估算值<50/m L
年龄作为一个关键的信息维度,在公共安全,商业推送和人机交互等领域有重要的市场潜在价值。基于人脸图像的年龄估计,旨在利用计算机视觉相关技术探索年龄分布和人脸图像变化
受海面风浪影响,装载多波束探测装置的无人船容易产生较大幅度的偏斜,从而导致数据失真。针对该问题,本文拟研究一种可加载多波束装置的机架结构,根据无人船的偏斜方向和角度
与经典的图像处理相比,量子图像处理为快速的图像处理提供了一种可能的解决方案,因此广受关注。量子图像二值化是一种运用了量子计算方法的图像二值化操作,在量子图像处理中
图像在现代社会各个领域的正常运转中占领着难以取代的位置,各种成像技术的发展也使得图像的应用愈加广泛,虽然每种成像技术都有其各自的特点和优势,但也因为存在的问题使得
山水画形成于魏晋南北朝时期,在隋唐时期开始成为独立的学科,发展到五代、北宋时期到达了一定的高度。山水画主要是以山川自然景观为描写对象,地域特征则对山水画的风格、意境、构图形式、设色等方面都有着极其重要的影响。我国是一个幅员辽阔的国家,有着丰富的地形地貌,气候特征以及自然生态环境,因此历代的山水画家都从大自然中寻找属于自己的表达方式,进而形成自己独具特色的艺术语言和艺术风格。北裕河深厚的文化底蕴,形