非局部时空残差注意力机制下的人体行为识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hlxcun3e5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是计算机视觉领域的研究热点,具有广泛的应用场景,如智能视频监控,基于内容的视频搜索分析,智能监护和人机交互等,有重要的应用价值。当前对人体行为识别的研究方向可分为手工设计特征和深度学习两个方向,手工设计特征的方法特征由人工设计,容易受设计者的主观影响。深度学习的方法利用神经网络进行特征学习,能自适应地学习相应特征,是目前研究的主流方向。尽管已经取得了一些成果,当前研究仍存在不足之处:首先,目前几乎所有模型都平等看待视频各部分,很容易引入与识别不相关的噪声;其次,目前对视频的运动特征提取采用手工算法,不能通过模型自动完成,计算复杂度也较高;最后,目前的卷积神经网络模型的受到感受野和卷积方法的限制,提取的特征对视频运动分析的帮助不大。针对这些问题,做了以下工作:
  ①针对视频中背景帧和冗余帧的问题,提出了时域注意力机制。时域注意力机制由帧内注意力模块和帧间注意力模块组成。利用非局部连接,两个子模块分别捕捉一帧之内和帧与帧之间的全局依赖关系。通过对依赖关系进行分析,可以得出一帧属于背景或前景帧的概率,以及该帧是否与其他帧有较明显的差异。这些信息能够帮助模型忽略背景帧和冗余帧,更合理地关注对识别结果有关键作用的几帧。
  ②利用非局部连接分配视频的空间注意力。非局部连接将与行为类别有较高相关度的区域视为关键区域,模型在识别过程中会更关注这些区域。同时对每个特征通道间的依赖进行建模,在通道间分配注意力,使模型忽略重复性较高的冗余特征。这些信息使得模型进一步关注到运动的关键特征上。
  ③以光流定义公式为基础,提取简洁的运动特征表达。在空间注意力机制的输出上直接使用时空梯度来进行运动特征的表达,仅通过滤波和相减运算就能完成。整个运动表征模型可微分,可融合于任意神经网络中进一步进行学习。
  本文在UCF-101和HMDB51数据集中进行了实验,最终分别得到了97.1%和78.0%的识别准确率。非局部时空残差注意力机制给基本的行为识别模型带来了7.6%和7.2%的准确率提升;相比同样运用了注意力机制的模型,本文的模型准确率至少提高了1.6%和5.3%;相比采用了类光流特征的方法,提升了准确率1.1%和3.8%。
其他文献
在我们投资的企业中,有很多创业者、企业家都是80后,17年前“非典”疫情的时候,他们还都在读大学,有些甚至还在读中学,在创办自己企业的过程中没有经历过类似这次席卷全国的疫情。因此,有必要回顾一下2003年的“非典”对行业和企业生存状态带来过何等影响。  2003年的阿里巴巴,成为杭州受影响最大的企业之一。幸运的是公司的运营现金流在上一年就转正了,从1999年诞生后的时间里,阿里巴巴建起了铁军一般的
期刊
成功创造出高效的人工智能可能是人类文明史上最重大的事件,也可能是最糟糕的事件。除非我们知道如何准备应对和避免潜在风险,否则人工智能就可能成为人类文明史上最糟糕的发明。  因此,想要人工智能能够与人类和谐共处,我们需要警惕危险的存在并找出危险,在实践和管理方面尽可能做到最好,并事先做好充分准备,应对可能出现的任何结果。一、将“信任设计”注入人工智能  安永与微软欧洲近期联合开展的一项调查显示,71%
期刊
巨变时代,不确定已成为常态,如果要在这样的环境下做出正确的选择,则需要界定清楚现象背后的本质是什么。  最近很多人不断问我,阿里、腾讯、京东怎么都在调整结构?我的回答非常简单,这个时代里,企业组织一定是动态的。  对于任何组织管理而言,必须了解到环境对组织本身的影响。今天,组织的绩效已经不再只是取决于组织本身,更主要的是由组织外部的因素来决定,我们将这些外部因素称为“组织环境”。  对于组织环境的
期刊
盒马的创新对人的挑战是巨大的。盒马是把线上线下、商品、营运、物流、供应链、服务等所有纬度合在一起,变成我们的核心竞争力。它是个立体的东西,融在一起的东西,因为融汇在一起,我们才做得跟其他人不一样。  盒马从诞生至今,经历过梦幻般的一个阶段,经历了从模式顶层设计,到开始尝试求证,过程中不断迭代,最后初步验证盒马模式在中心城市的有效性,然后迅速拓展到19个城市的过程。短短四年间,盒马经历了零售业可能几
期刊
2020年开春,突如其来的疫情使整个中国经济遭受了前所未有的剧烈冲击,看看微博、微信,我觉得企业界的忧虑指数在提升,恐慌的气氛似乎也在蔓延。  目前,我国疫情基本过去,但其带来的次生疫情却刚刚开始,对于企业而言,“经济疫情”更为让人忧心。  从2019年起,中国企业界、经济界就进入了一个“流感时期”,并且极具传染性。  这次“流感”的背景是2019年有两个红利结束了。  一个是人口红利,变成了人口
期刊
消费级智能语音交互是人们接触智能语音最普遍的渠道,从手机语音助手、家庭智能音箱、智能耳机、智能电视、故事机到智能车载等,根据艾瑞《2020年中国智能物联网(AIoT)白皮书》,2018年消费级AIoT在总AIoT市场中占比68%,市场规模达到1753亿元。作为最早显示出市场潜力的赛道,无论是硬件设备厂商还是互联网公司、AI公司都瞄准消费级智能交互终端。  近年,智能音箱作为智能生活“入口”的地位逐
期刊
中国职业经理人高速成长的背后意味着中国逐渐成为世界经济的重心,在这股趋势下,经济的全球化、用工的全球化、资源的全球化都是盖雅工场发力的推动器。目前,盖雅工场的产品已经落地于13个国家和地区。  全球范围内出现过四次大规模的制造业迁移。  第一次在20世纪初,英国将部分“过剩产能”转移到美国。  20世纪50年代,美国又将钢铁、纺织等传统产业转移至日本、德国。  60至70年代,日本、德国推动轻工、
期刊
“只有企业掌握核心技术,有竞争力的产品,才能更好地参与到行业标准制定中去,从而拥有更多话语权。”万安科技董事长兼总经理陈江认为,过去中国企业在国际上没有话语权,就是因为没有核心技术及产品,而如今,万安为中国制造业开创了一种新的可能。  身为UNPay(优付全球)创始人兼CEO,章政华已经保持“空中飞人”状态很长一段时间。大部分时间里,他往来于世界各国的上空,穿梭在地球经纬线的边界,追逐着太阳升起的
期刊
亿阳集团因过度扩张、项目投资回报率偏低等原因,资本早已被深度套牢。拥有高阶经济管理科班背景的邓伟为能从中解套,在后续面临集团发券融资、涉诉、债务危机爆发、两次增持,以及上市子公司两次停牌两次重组失利等一系列棘手状况中,使出了浑身财技,终于迎来了最后的集团重组。  2019年3月21日,经哈尔滨中级人民法院裁定受理之后,亿阳集团股份有限公司(以下简称“亿阳集团”)正式拉开破产重组的帷幕。而2017年
期刊
2019年,豌豆思维完成了A、B轮两轮融资,B轮融资由新东方集团联合新东方产业基金领投,喜马拉雅、DCM、创新工场等机构跟投。从去年7月课程正式上线到2019年5月,豌豆思维将单月营收从30万做到2800万。从资本和市场同时交付的成绩单看来,来自IT、游戏、动漫领域的三位“跨界”创始人似乎磨合地还不错。  豌豆思维入局时,数学思维赛道正当火热。据公开数据显示,2018年数学思维赛道获得融资共计8.
期刊