论文部分内容阅读
随着互联网和计算机技术的迅速发展,网络中的视频信息正在爆炸式的增长。为了满足用户快速获得期望信息的需求,基于Web的搜索引擎开始蓬勃发展。而主流的搜索引擎发展略显滞后,停留在文本搜索的阶段。显然,对于一段信息量非常丰富的视频来说,简单的文本标注无法准确的描述视频内容,这使得基于内容的视频检索技术的研究成为一个紧迫的任务。因此,许多研究者已经开始研究如何有效的利用视频中的图像和语音等信息,提高检索精度。本文主要从视频检索的基本流程入手,将视频检索分为视频分析和视频检索框架两个部分。视频分析主要是视频结构化的处理和信息的提取,将重点研究镜头分割和基于关键帧的镜头描述。在视频检索框架部分,主要是研究如何利用基于重排列的分类算法提高检索结果的相关度,并建立完整的视频检索框架。视频从结构上可以划分为场景、镜头和图像帧。在视频检索中,由于镜头是视频处理的最小单元,首要任务就是将视频片断分割为镜头单元。本文分析了现有镜头分割算法准确率和速度无法获得较好平衡的缺陷,提出了一种快速的由粗到精的镜头分割算法,能够有效地判别相机(物体)运动和镜头渐变之间的区别。首先,基于本文提出的改进的信息熵,比较连续帧之间的差别,利用自适应阈值判断出一组候选的镜头。然后使用本文提出的快速运动边缘检测算法,在候选镜头中将相机(物体)运动检测出来。由于提出的算法基于特征的统计特性,可以大大减少计算量。在镜头描述阶段,分为动态和静态描述两个部分。动态描述是通过分析镜头内连续帧之间的运动变化,获得了镜头的运动量化特性,作为本文中镜头的辅助描述方法。静态描述方法则采用了基于关键帧的特征描述方法,提出基于颜色不变区域和局部特征相结合的视觉单词描述算法。在静态描述阶段,首先分析了现有基于灰度图像的局部特征描述符缺乏对颜色信息的描述。然后从彩色图像入手,提出了改进的准不变量提取方法,进一步获得了稳定的颜色不变区域,在此基础上颜色不变区域的描述符被提取。最终,利用提出的颜色不变区域和现有的局部特征相结合形成视觉单词(Bag of Visual Words, BOW)模型,并和类似的视觉单词模型在图像库进行了检索比较,由于稳定的颜色线索被引入,我们的方法性能有了显著的提高。在视频检索框架的构建部分,提出了基于主类别的重排列算法,并结合视频结构化和视觉单词描述方法构建了基于重排列的视频检索框架。在检索过程中,首先利用传统基于文本的Web搜索引擎获得初始查询结果,使用聚类方法,将顶层返回结果区分无关和相关样本。在获得了样本的类别后,分析了样本特征空间的分布特性,提出了基于主类别的线性判别模型。在最后的实验中,本文提出的视频结构化方法、镜头描述及重排列方法最终构成了基于重排列的检索框架,完成了检索任务,提高了检索精度。