论文部分内容阅读
随着多媒体和网络技术的迅速发展,大量的视频信息不断地在网络上涌现出来,极大地丰富了人们的日常生活。但是,视频信息的丰富性是以其无结构性为代价的,在海量的视频数据库中人们通常只能以“快进”、“快退”地方式来寻找自己感兴趣的视频。目前,视频数据的无结构性已经成为视频检索的一个瓶颈问题,极大地阻碍了各种视频媒体的有效应用。因此,本文以电影视频为对象,系统地讨论了电影视频结构化技术的方法。
本文首先系统地分析和研究了电影视频拍摄和剪辑的一般过程,指出了电影视频在制作和感知过程中所遵循的共同基本规律,剖析和总结了这些基本规律对电影视频结构化技术的指导意义。
其次,本文研究了视频镜头检测的问题。介绍和分析了现有各种镜头检测方法,在分析典型的“双阈值法”的基础上,提出了一种基于YUV直方图帧间差的镜头检测方法。该方法使用高斯模型来确定阈值,使其能够根据输入的视频内容自动的进行调整来满足不同视频类型的需求。在此基础上,本文还给出了一种简单有效的关键帧提取方法。它能根据镜头内容的变化情况,通过镜头帧聚类来提取镜头关键帧。
最后,本文重点研究了视频场景提取的问题。这一部分从电影剪辑的基本原则入手,结合现有的场景定义,给出了一种新的电影场景的定义方法,提出了一种基于视/音频特征的电影场景检测方法。根据新的场景定义,选择了一种相应的镜头区域特征选择方法,区域特征的选择大大简化了计算的复杂度,减少计算时间。使用了基于双滑动镜头窗的方法进行镜头聚类,形成初步的场景分割;然后根据场景边界的音频特征将其分为音乐场景、会话场景,再根据镜头边界音频特征将初步场景边界进行进一步的合并。模拟试验结果表明,本文的场景分割方法是有效的,对当前视频结构分析的研究和应用有较好的参考价值。