视频镜头检测和人体行为分析

来源 :中山大学 | 被引量 : 0次 | 上传用户:jingcheng0417
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的二十年中,人体运动的视觉分析已经成为计算机视觉领域中一个较为活跃的研究方向,特别是9-11事件后,其重视程度大幅提高,在虚拟现实、智能监控及身份识别等方面都已具有初步的应用。在人体运动的视觉分析框架中,人体行为的检测与识别研究既是重点也是难点,它是计算机视觉实现从低、中层处理(运动检测、运动目标分类和人体跟踪等)逐步向高层抽象思维(人体行为理解与描述等)转变的关键。然而,目前此研究尚属初级阶段,主要集中在简单场景下标准行为的检测与识别,仍有很多挑战性的问题有待解决。   本文首先阐述了人体行为分析(主要包括人体行为检测与行为识别)的研究背景和研究意义,并对已有方法进行了归纳总结。同时介绍了相关的行为数据库,综述了各种算法的评测性能,并引出人体行为检测与识别的若干关键问题,对其发展趋势作了较为详细的探讨。随后分别从镜头检测、行为检测、行为识别三方面展开讨论,提出新算法,并将它们用于解决实际问题。   镜头检测是视频分析的基础,也可以广义地看成是人体行为分析的预处理环节。由于镜头变化的形成十分复杂,基于强度、颜色以及形状等低层特征的镜头变化检测经常会发生漏检现象。同时,由于此类特征对噪声、摄像机运动等干扰比较敏感,错检也较为频繁。针对以上不足,本文提出了一种基于空时显著性变化的统计方法用于检测视频中的镜头变化。它融合时间历史帧信息和当前帧的空间信息生成显著图,通过观察空时显著性变化提取相邻镜头之间的差异作为有效特征,在统一框架下,以最小化检测误差为前提,构造统计检测器从而检测出各种类型的镜头变化。在TREC01和各种类型(广告、体育竞技和电影)视频上的评测结果表明了以空时显著性变化差异作为特征的统计镜头检测方法具有一定的优越性。   在行为检测方面,本文提出一种由粗到精的匹配策略以检测出真实视频中较为复杂的人体行为。假设只给定一个查询行为的样本,行为检测是在真实视频中搜索与查询行为相似的所有行为。真实视频通常持续较长时间,若采用穷举搜索的匹配方式,计算花费相当巨大。因此,本文采取由粗到精的匹配策略:首先通过时间和空间分割粗糙地确定最有可能存在查询行为的空时体集合;然后通过分别匹配每个空时体与查询行为之间的结构相似性,检测出真实视频中与查询行为相似的所有行为。实验结果表明,此方法在Weizmann-Ⅱ库上取得了与穷举搜索法相当的检测率,但由粗到精的匹配策略却使得计算复杂度大大降低。   人体行为识别与行为检测既有相似又有不同之处。行为检测一般是指在给定一个查询行为样本的条件下,在真实视频中检测与查询行为类似的所有行为;而行为识别则是在大量训练样本类别已知的条件下识别未知行为。论文的行为识别工作主要包括前景周期行为的识别和原始周期行为的识别。   在背景已知的监控条件下,人体剪影比较容易获取,由每帧剪影图像按时序堆叠起来的空时体则同时包含了人体行为的时间和空间信息。在识别这种前景周期行为的问题上,本文从几何特性(弧长及主轴角度)方面定义了体语义局部二值模式描绘子并直接用于提取其低维特征,在测试行为与已知行为训练集特征之间构造分类器即可识别未知行为。在Weizmann-Ⅰ库的前景行为数据上,我们取得了95.56%的识别率。同时,测试实验表明,体语义局部二值模式描绘子对视角的微小变化、部分遮挡及行为方式的不规则性具有较高的鲁棒性。体语义局部二值模式描绘子不需要降维,能够直接提取行为空时体中的低维特征,并且提取特征的维数只与局部二值模式事先定义的邻域点个数有关,从而减小了行为之间执行速率的不同对识别率所造成的影响。   在原始周期行为的识别方而,本文提出一种正则回归的秩-1张量投影技术。对视频数据采用张量的表达方式既可以保留每帧图像内部的空间结构,又可以避免视频中的二维帧图像转为一维向量而造成的维数灾难。基于张量的分类方法大多采用张量子空间方法首先获取特征张量,进而对特征张量构造合适的分类器,计算较为复杂。本文将多类行为识别问题分解为多个One vs.All的两类回归问题,对每种行为采用正则回归的方法分别构造秩-1张量投影,通过子集嵌入和后精炼处理将张量样本直接映射到对应的类别标记。在Weizmann-Ⅰ库和KTH库的分割行为数据和原始行为数据上,我们将秩-1张量投影技术与张量子空间方法及行为识别的最新方法进行比较,获得与其相当甚至更高的识别率。同时,秩-1张量投影技术具有很好的算法收敛性,运行耗时大为降低,对视角变化、部分遮挡及行为方式的不规则性也具有一定的鲁棒性。
其他文献
在大规模WEB并发访问过程中,为保证用户请求得到及时、准确的响应,一般采用多服务器集群技术。作为其工作核心,负载均衡算法负责将来自客户端的大量并发请求均衡地分配到后端服
随着经济和社会的发展,食品安全问题得到人们的广泛关注,而鸡蛋作为日常生活中最大众化的食品之一,其品质检测和分级显得尤为重要。传统的鸡蛋品质检测和分级方法依靠人工视觉,检
高速数据采集和存储系统目前在雷达、图像处理、声纳、通信等领域有着广泛地应用。特别是随着雷达成像技术逐渐成熟,图像分辨率和数据采样率都大为提高,需要实时保存海量的数据
对心电信号(ECG)的识别是及时诊断各种严重心脏疾病的基本手段。室性早搏(PVC)和房性早搏(APV)是威胁人类生命的严重的心脏疾病。本文提出基于模式熵方法识别正常窦性心律(NS
信道编码理论及技术作为现代通信系统必不可少的关键技术,近几十年在Shannon信道编码定理的指引下已经经历了飞速的发展并取得了大量的研究成果。目前,低密度奇偶校验码(LDPC
小波分析是在短时傅立叶变换的基础上发展起来的一种具有多分辨率特性的局部分析方法,它通过伸缩、平移等运算对信号进行多尺度细化分析,从信号中提取有效信息,是分析非平稳
本课题来源于济南联通公司的NGN网络建设项目。NGN是目前国际和国内通信领域研究的焦点之一,为多种网络的融合提供了可行的方案。为了在电信界新的革命浪潮中占得先机,世界各个
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,对于电子商务、网络监管等领域有着重要的意义和实用价值。因而文本
高动态信号跟踪技术是开发高性能GNSS软件接收机的关键技术,其中载波信号的同步是接收机基带信号处理当中的难点。对于装配在高动态载体上的软件接收机,其接收到GNSS信号载波频
嵌入式技术和语音处理技术的应用越来越广泛,而语音加密作为语音处理的研究方向,发挥着越来越重要的作用。本文主要是研究和设计基于ARM+Linux的嵌入式系统的语音加密处理系