论文部分内容阅读
随着数字信息数量爆炸式增长,多媒体的非结构化给多媒体信息的组织、浏览、检索带来很大不便。视频解析技术的目的便是实现视频媒体信息的有序化。电视新闻作为一种重要的电视节目,是每个家庭及时获取信息的重要来源。为用户提供智能化的视频内容交互功能需要视频内容与结构解析技术的支持。本论文围绕新闻视频媒体研究在压缩域上利用多种信息源的高效视频内容与结构解析技术。研究内容涉及对MPEG-1,2视频流的帧索引,镜头分割,字幕文字检测、播音员镜头检测、利用音频、视频、文字自动抽取新闻条目及其它结构单元等,获得了如下一些有特色的研究成果: 1.提出了一种有效的针对MPEG-1、2码流的索引模型,基于该模型设计并实现了MPEG流的索引文件生成算法,以及对码流中任意帧随机访问显示算法。该模型不仅支持对I帧的定位,也能快速访问P帧及B帧。它对帧定位的时间复杂度近似为一个常数,与要定位的帧在MPEG流中的位置,流的码率等因素无关。 2.提出了一种压缩域上更加快速的高效切变镜头边界检测算法,算法跟其它压缩域上的镜头分割算法相比,放弃了一般的相邻帧比较检测方式,在图片组(GOP)级,图片子组级,帧级三种不同粒度上自适应地改变搜索帧距。并且算法充分利用MPEG不同编码类型帧中包含的不同特点的原始特征信息,对于I帧使用DC系数信息,P,B帧使用宏块编码类型标志位信息,使得特征抽取与分析运算的时间复杂度大大降低。 3.提出了一种在MPEG压缩域上的快速标题文字检测算法。对标题文字叠加模型的分析发现标题文字所在区域的色度分量值会收敛于一定范围。利用该特点,设计了一种在视频压缩流上基于色度分量统计特征模型的标题文字检测新算法。并对如何进一步提高检测速度进行了理论分析,给出了约束条件。该算法不仅计算量小,且克服了[86]对标题文字跨越多个镜头的情况不再适用的局限性。这种技术被应用到自动创建图片目录—一种新型的视频内容表示方式,使用户通过非常少数目的图片快速浏览一天的新闻内容。 4.提出了一种在压缩域上基于背景色彩及人脸肤色模型的播音员镜头检测方法。该算法具有计算简单,完全在压缩域上进行分析的特点。由于算法进行检测时利用的信息在任意时刻与后续帧的内容信息无关,因此可用于在线检测处理。 5.提出了一种结合音视频特征信息自动分割新闻条目的方法。该方