融合多模式信息压缩域新闻视频解析技术研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 1次 | 上传用户:caoyongtao1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字信息数量爆炸式增长,多媒体的非结构化给多媒体信息的组织、浏览、检索带来很大不便。视频解析技术的目的便是实现视频媒体信息的有序化。电视新闻作为一种重要的电视节目,是每个家庭及时获取信息的重要来源。为用户提供智能化的视频内容交互功能需要视频内容与结构解析技术的支持。本论文围绕新闻视频媒体研究在压缩域上利用多种信息源的高效视频内容与结构解析技术。研究内容涉及对MPEG-1,2视频流的帧索引,镜头分割,字幕文字检测、播音员镜头检测、利用音频、视频、文字自动抽取新闻条目及其它结构单元等,获得了如下一些有特色的研究成果: 1.提出了一种有效的针对MPEG-1、2码流的索引模型,基于该模型设计并实现了MPEG流的索引文件生成算法,以及对码流中任意帧随机访问显示算法。该模型不仅支持对I帧的定位,也能快速访问P帧及B帧。它对帧定位的时间复杂度近似为一个常数,与要定位的帧在MPEG流中的位置,流的码率等因素无关。 2.提出了一种压缩域上更加快速的高效切变镜头边界检测算法,算法跟其它压缩域上的镜头分割算法相比,放弃了一般的相邻帧比较检测方式,在图片组(GOP)级,图片子组级,帧级三种不同粒度上自适应地改变搜索帧距。并且算法充分利用MPEG不同编码类型帧中包含的不同特点的原始特征信息,对于I帧使用DC系数信息,P,B帧使用宏块编码类型标志位信息,使得特征抽取与分析运算的时间复杂度大大降低。 3.提出了一种在MPEG压缩域上的快速标题文字检测算法。对标题文字叠加模型的分析发现标题文字所在区域的色度分量值会收敛于一定范围。利用该特点,设计了一种在视频压缩流上基于色度分量统计特征模型的标题文字检测新算法。并对如何进一步提高检测速度进行了理论分析,给出了约束条件。该算法不仅计算量小,且克服了[86]对标题文字跨越多个镜头的情况不再适用的局限性。这种技术被应用到自动创建图片目录—一种新型的视频内容表示方式,使用户通过非常少数目的图片快速浏览一天的新闻内容。 4.提出了一种在压缩域上基于背景色彩及人脸肤色模型的播音员镜头检测方法。该算法具有计算简单,完全在压缩域上进行分析的特点。由于算法进行检测时利用的信息在任意时刻与后续帧的内容信息无关,因此可用于在线检测处理。 5.提出了一种结合音视频特征信息自动分割新闻条目的方法。该方
其他文献
知识型员工具有需求的多样性和复杂性、较强的工作主动性和自主性、对组织忠诚度低、流动性强、追求个人职业发展等特征。我国外资企业对知识型员工的激励已经从以薪酬激励为
改革开放完善和发展中国特色社会主义制度,注重在巩固完善公有制基础上促进多种所有制经济共同发展,在发挥市场配置资源决定性作用的同时更好地发挥政府的作用,在加快建设物
长期护理是指在一段时期内持续地为患有慢性病、处于伤残状态或者存在认知障碍而失去自理能力的个体所提供的服务。随着人口老龄化趋势成为全球性问题,
条带状铁建造(BIF)型金矿,亦称与前寒武纪绿岩带含铁硅质建造有关的霍姆斯塔克(Homestake)型金矿,是世界各国传统的金矿找矿类型。五台山太古宙绿岩带(五台群)条带状铁建造型
《物权法》对小区车库的归属做了相关规定,但是并未注意到我国小区车库的权属现状,无法有效解决所有权争端。本文首先对住宅小区内车库的类型进行区分,找到其归属的争议所在;
通过介绍人文精神的内涵及其意义所在,结合对新媒体定义和特点的阐述,归纳并分析了当前新媒体的发展现状及其对大学生人文精神培育的影响,同时归纳了强化爱国主义、形成担当