论文部分内容阅读
视频内容的识别与检测是近十年来计算机视觉领域中一个十分热门的话题。随着视频监控应用的需求的大量上升,随着互联网技术的不断发展和成熟,越来越多的应用场景涉及到了视频内容的自动识别检测。利用视频内容检测技术,可以自动地分析视频中诸如人体等对象的运动模式,可以自动的检测视频中是否含有不健康或者需要屏蔽的信息,也可以在人机交互、视频检索等方面发挥重要的作用。本文主要着眼于视频中人行为的识别以及不健康视频的检测,根据这两方面不同的侧重点,使用不同的技术,包括时空特征的提取分析、大量双模态特征的融合、视觉/音频词袋模型向量生成、包含二次预测的SVM分类框架以及识别不健康信息的分层检测架构。在人行为识别方面,本文提出了一种空-时SURF(快速鲁棒特征)特征描述子,并且结合视频词汇概念,应用于人行为识别。这种新的描述子在行为识别应用中能很好的体现视频的时空本质,该描述子通过词袋(Bag of Words)模型来表征视频,在表征过程使用了soft-weighting(非硬性权重)。实验以瑞典皇家理工学院的行为识别数据集作为测试对象,实验即使用了相关领域传统的分类策略,同时引入了包含二次判断的投票系统,实验证明了结合这种特征描述子和视频词汇的行为识别框架在速度和准确率上都要优于现有的一些方法,同时新的分类策略在某些行为类型上要超过传统的分类方法,能有效地应用于行为识别领域。在不健康内容检测方面,本文根据暴力和色情这两类典型的不健康视频的固有特征,设计两套有所针对性的检测流程。使用改进的结构张量直方图以及简单的颜色描述子搭配音频词袋模型向量进行分层的暴力镜头检测;使用大量MPEG7视觉描述子的后融合技术搭配音频词袋模型向量在关键帧的ROI区域和关键帧所在的镜头进行分层的检测。实验证明了这两类具有针对性的分层检测架构在检测准确率和效率上都有着优越的性能。