基于视听信息的人体行为识别算法研究

被引量 : 0次 | 上传用户:yushui223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是计算机视觉中一个非常活跃的研究课题,在人机交互、基于内容的视频索引、视频监控以及机器人学等方面有着潜在的经济和社会价值,得到了广大科研工作者的高度关注。关键问题是如何从信息量巨大的视频图像中提取有效特征,即如何利用一种简单快速有效的模型来表示人体的不同行为,实现在复杂自然环境中的人体行为识别任务,并能同时满足实时性和鲁棒性的要求。本论文主要研究了基于视觉信息和基于视听信息的人体行为识别算法,在有效的视听特征提取和描述基础上,应用先进的智能算法对人体行为进行识别,完成的主要工作如下:首先,分析了人体行为识别问题的研究背景和意义,综述了目前基于视觉信息的人体行为识别问题的国内外研究现状以及存在的主要问题,简单介绍了本论文的主要内容和章节框架。第二,简单分析了目前已有的基于视觉信息的人体行为特征提取、描述方法,人体行为表示模型,并介绍了人体行为识别研究常用的动作数据集。第三,研究了背景简单、无遮挡情况下的人体行为识别问题,在分析比较各种视觉检测子和描述子基础上,利用3D Harris时空角点检测子提取KTH视频序列中三维角点,采用3D SIFT描述子对时空兴趣点进行描述生成特征向量,建立词包模型,提出利用在线极限学习机在线学习并分类人体的各种行为,在线极限学习机、极限学习机以及状态向量机的比较实验结果表明,在线极限学习机分类器具有出色的对人和场景的记忆功能,在线极限学习机的在线学习能力可有效提高识别率。第四,进一步研究了复杂动态背景、存在遮挡情况下的人体行为识别问题,研究了融合视频中的视觉、音频、运动信息,进行人体行为识别。对于视觉信息,利用Cuboid检测子提取视频中兴趣点块,对每个兴趣点块计算LBP-TOP描述子;对于运动信息,利用Tracklet描述子跟踪检测视频中人体运动信息并加以描述;对于音频信息,提取视频中14种频谱域和时间域的音频特征。然后,应用特征层融合、决策层融合和混合融合方法在HOHA数据集和YouTube数据集中对提取的三种特征进行融合识别复杂动态背景下人体行为。通过实验证明了融合三种不同的特征:视觉、运动和音频特征能在背景复杂动态环境下比较准确地识别人体各种行为。最后,提出了基于免疫多克隆优化算法的ELM分类器,利用免疫多克隆算法的抗体多样性提高全局搜索能力,在隐层神经元个数一定的情况下,搜索使得ELM分类器泛化性能最优的输入权重和偏置,实验结果验证了该改进的ELM分类器能够获得更高的分类精度。最后,对本论文所做工作进行总结,并提出了下一步的研究方向。
其他文献
美国的经济成长和金融霸权的发展,对外离不开其全球资本的战略推进,对内则受益于外来资本的给养。美国是全球对外直接投资最多、拥有最多跨国公司和最多海外资产的国家,同时
谚语是“民族之明镜”,是一个民族智慧的精华所在。英汉谚语有着悠久的发展历史。英汉谚语具有一定的共性:群众性、思想性与艺术性,同时又有各自的特性:民族性和地方色彩。研
简单暴露效应的模式和机制一直是社会认知领域的热点问题。本文以无意义材料——甲骨文为材料,以大学生为被试,采用实验法研究在浅加工水平下不同的意识条件的过度简单暴露效
会议
为克服传统纵联差动保护运用在不同电压等级的同杆四回线中容易受到耦合电感的影响,提出了基于反序负序差电流的纵联差动保护方案。不同电压等级的四回线由两个不同电压的等
黑龙江作为文化大省,提出了建设边疆文化大省的文化产业发展战略,确定一个发展目标,实施五大战略,发展十项产业,构建三大格局。黑龙江在发展文化产业中还存在观念落后,跟不上
目的:探讨就医偏好是否随医生照片一次或者多次呈现发生变化。方法:在实验1、2中分别对医生照片进行阈下和阈上呈现,操纵呈现次数(不呈现、呈现一次、呈现多次)和职称特征(主
把启蒙运动与现代性问题联系在一起探讨现代性是一种较为常见的路径,即从自律精神、技术理性精神、自然法精神、和谐精神等启蒙精神的基本内涵出发,在更深层面发掘启蒙精神与
进入21世纪以来,儒家美学思想研究突出了两种研究趋向,一是经典范畴和命题的清理与转换,比如,“兴”、“乐”以及美与善的关系等。研究者不但对其基本内涵作出解释,还多从新
中国传统美学中的审美追求潜移默化地影响着现代艺术设计。尤其是现代广告设计、服饰设计中的象征、对比、夸张以及介于似与不似之间的写意手法等,无不体现了中国文化特有的
<正>一个普通的工薪阶层,每月的养猫基础开销高达2000元左右——数字源于本刊记者采访的案例,这种案例不在少数——这个数字让我有些吃惊,根据国家统计局近日公布的2018年就