论文部分内容阅读
近些年来,随着计算机技术、宽带网络、视频压缩技术、视频点播、网络电视等技术的推广和普及,数字视频已经广泛地应用于广播、教育、娱乐、医疗服以及监控等领域.与传统的文本信息相比,视频具有生动、表现力强和信息量大等特点.但视频的数据结构复杂、数据量巨大、内容不透明,这给面向视频的浏览和检索带来了很大不便.如何有效地理解和组织视频数据,使人们方便快捷地从大量视频数据中找到自己感兴趣的视频片断,是一个急待解决的问题.基于内容的视频检索是解决这一问题的关键(CBVR).
实现CBVR的第一步是提取视频中的层次结构和语义信息,完成这一功能的技术统称为视频解析.视频解析是实现视频摘要和视频索引的基础和前提,是CBVR中的关键步骤之一.作为一种重要的视频类型,新闻视频是人们获取信息的重要来源之一.新闻视频具有独特的结构特点,含有丰富的语义信息.基于内容的新闻视频解析是当前CBVR领域中的一个热点问题.
本文对基于内容新闻视频解析中的部分关键技术进行了深入的研究,提出了一些卓有成效的方法.本文的主要研究工作概括如下:
首先介绍了CBVR产生的背景、意义、以及当前研究现状.然后根据层次结构模型和叙事结构模型,介绍了新闻视频的结构特点.在此基础上,给出了一种基于内容新闻视频解析框架,它包括层次结构划分和特定对象提取两部分.简要介绍了该框架下各项关键技术的研究内容.
第三章介绍了与新闻视频层次结构划分相关的关键技术.首先提出了一套镜头转换检测方案.它包括闪光灯效应检测、镜头切换检测和镜头叠化检测三部分.提出了一种基于模型的闪光灯效应检测算法,使用它可以有效地检测渐变闪光灯效应和连续闪光灯效应.提出了一种改进的镜头切换检测算法.去除了闪光灯效应的干扰,使用中值滤波技术降低了镜头内部物体/摄像机运动造成的影响,显著减少了误检;只选用非零特征对用于FCM聚类,减少了聚类过程的计算量.提出了一种改进的镜头叠化检测算法.从一般叠化模型出发,使用隔帧帧间差考察叠化过程的"多帧变化一致性"特征;首次提出了一种"叠化块分布率"特征,使用它区分镜头叠化和镜头内部局部区域叠化转换.与已有叠化检测方法相比,所提方法的查全率和准确率都有所提高.
在镜头转换检测基础上,提出了一种改进的基于镜头聚类的播音员镜头检测算法.采用一种新的子区域划分方案计算镜头间距离,有效降低了同类播音员镜头间局部区域内容显著变化的影响;首次提出了一种"类内镜头跨度"特征,使用它去除由伪播音员镜头类引起的误检.与已有方法相比,所提方法的查全率有明显提高.
第四章介绍了新闻视频中字幕文本和静态标识两类特定对象的提取.提出了一整套字幕文本提取实现方案,它包括字幕事件检测、字幕区域检测、字幕定位和字幕文本分割四个步骤.首先提出一种基于多帧信息的字幕事件检测算法,借助所提字幕事件帧匹配过程,有效检测各种类型的字幕事件.根据字幕事件检测结果,提出了一种字幕区域快速检测算法.在字幕定位部分,以字幕区域边缘图为基本特征,借助一种多级水平投影分析技术,有效减少了字幕行的漏检.最后,依次使用正反色文本调整、基于样条函数插值的分辨率增强以及基于二次聚类的二值化方法,将字幕文本从背景中分割出来.
提出了一种改进的静态标识提取算法.首先选取用于标识区域定位过程的代表帧序列.提出了一种"边缘匹配率"特征定位标识区域.接下来提取用于标识图像分割的代表帧序列,计算每个标识区域的时域方差图,借助一种分段线性压缩技术对方差图进行归一化处理,采用经典二值化方法将标识图像从背景中分割出来.与已有方法相比,所提方法能更有效地定位和分割半透明标识.