论文部分内容阅读
传统的视频压缩编码标准MPEG1/2和H.26x都采用基于帧的技术,不要求对场景进行分割。它们能获得较高的压缩比,并在许多领域得到了广泛的应用。随着多媒体信息的日益丰富,人们不再满足于对视频信息的简单浏览,而要求提供基于对象的操纵、交互等功能。 为此,MPEG组织提出了第二代视频压缩标准MPEG-4,MPEG-4最显著的特征之一就是基于对象的编码方式。要实现基于对象的视频编码,首先要进行视频对象分割。视频对象分割是指在时空域上将视频分割为一些视频语义对象的集合,也就是将每一个视频帧分割为一些不同语义对象区域。事实上,视频对象分割技术不仅仅可以为MPEG-4服务,在许多计算机视觉领域都能发挥视频对象分割技术的作用。视频对象分割技术有很广阔的应用前景,其中的一些典型例子包括视频编码、视频制作和编辑、视频检索、视频监控等。 视频对象分割是计算机视觉领域中的一个难点,这主要是由于现实世界中场景的复杂性和多样性,很难建立一个统一的先验模型,这就决定了很难找到一种单一的方法来完成这项任务。研究通用视频对象分割方法的困难还来自于对“语义对象”的定义:视频对象的分割不仅仅是低层次的视觉分割,还涉及到高层次的语义定义和特征提取。所以,尽管视频对象分割算法的研究得到了广泛的重视,并且已经提出了众多的算法,但是,视频对象分割算法与MPEG-4标准的要求相比还远未成熟。概括起来,目前的视频对象算法主要存在以下一些问题:首先,目前还不存在一种适合于所有序列的通用算法;其次,由于分割过程中计算量大,尚难满足实时性要求。 本论文重点研究MPEG-4框架下从视频序列中分割出视频对象的方法和技术,针对目前的视频分割算法大多数难以满足实时性要求的缺点,引入细胞神经网络来解决。 论文主要工作包括以下几个方面: 1) 提出了一种基于边缘投影的头肩序列人脸提取算法。通过对头肩序列进行分析,可知面部的运动细节比较丰富,也比较集中。因此可以通过对帧间差分图像做水平和垂直投影,确定人脸的大致坐标,搜寻范围变为一个矩形小区域。之后对这小块区域使用游程编码进行区域划分,结合前面得到的帧差运动信息,提取出人脸区域。这种算法综合利用了空间灰度信息和运动信息,因而能够比较准确地分割出人脸。 2) 提出了两种头肩序列中视频对象的分割算法。其中一种是时空结合的视