基于多模态特征的视频语义镜头标注

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ghmyjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频的镜头类型是视频底层特征和高级语义之间的桥梁,能有效弥补两者之间的鸿沟,有助于视频精彩事件检测,促进创建视频摘要,进而满足用户快速查询和浏览视频的要求。现有视频语义镜头标注方法大多基于视频的视觉特征,未充分利用多模态特征,浪费了数据资源,标注效果也有待提升。本文提出了基于多模态特征的视频语义镜头标注方法,并应用于足球视频,主要工作有:(1)分析并提取了足球视频的多模态特征。包括镜头关键帧的视觉特征—草色块个数、人脸区域参数、边缘、纹理和镜头的摄像机运动特征;镜头对应音频信号的平均短时能量、短时过零率、音频帧能量序列的自相关函数特征。同时,本文提出了累积方差法,并结合连通域分析技术提取了足球视频记分牌中的时钟数字,采用支持向量机(Support Vector Machine, SVM)对提取出的时钟数字进行了识别,用关键词匹配方法提取了足球视频网络直播文本的文本事件及对应的时间标签,并将文本/视频的时间进行了对准。实验结果证明了特征提取方法的正确性。(2)分别将提取出的一部分视频镜头的视觉特征矢量集和多模态特征矢量集作为训练数据,输入分类器,采用决策树C4.5挖掘特征矢量和镜头类型之间的潜在关系,即建立语义镜头标注的模型,并用该模型对新的足球视频镜头集进行了语义标注。实验结果证明,本文基于多模态特征的视频语义镜头标注方法比基于视觉特征的标注方法性能好。最后总结了本文的研究内容,展望了未来的研究方向。
其他文献
LVDS的全称是Low-Voltage Differential Signaling,即低电压差分信号,是20世纪末美国国家半导体公司提出的一种信号传输模式,是一种电平标准。LVDS接口技术可作为一种高性能数据
嵌入式系统是一种高度集成化,针对应用而设计的专用计算机系统,嵌入式系统是一种具有特定功能的计算机系统,它与通信技术和网络技术的结合,极大的增强了设备的网络和通信的灵活性
无线可视化传感器网络(Wireless Visual Sensor Networks, WVSNs)是由许多分散在目标区域中的图像拍摄系统节点所构成。相对于传统的无线传感器网络(Wireless Sensor Network
本文研究的是水下声靶接收处理系统设计。声靶主要分为信号接收、信号处理、回波发送三个主要部分,本文研究的重点是信号接收和信号处理。为了达到较好的实时性,采用了NI公司开
随着雷达信号处理算法的研究不断深入,信号处理系统的复杂性与实效性的矛盾更加突出,提高雷达信号处理速度成为必要。近年来,GPU(Graphics Processing Unit,图形处理器)技术
无线体域网作为无线传感器网络的一个重要分支,是一种新的交叉学科。其整合了许多高新技术,如分布式信息计算与处理技术、传感器技术、嵌入式技术、无线网络和通信技术等,被广泛
本文研究并实现了基于达芬奇平台的夜间车辆检测系统。该系统在嵌入式平台上实时分析交通视频信号,准确计算出车流量、车速等交通参数,并能有效抵抗车灯直射摄像头产生的光晕、
全球定位系统(GPS)和捷联惯性导航系统(SINS)具有很强的互补性,本文主要研究了基于ARM的SINS和GPS的组合导航系统。本文首先对GPS和SINS进行了概述,分别介绍了两个子导航系统
Femtocell又称毫微微小区,或家庭基站,是一种小型低功率基站,覆盖范围为10-50m,主要用于解决室内覆盖问题,具有接入简单、低功耗、低成本等特点。在家庭基站和宏基站的频率资源分
网络编码自提出以来,已在理论上证明可以带来诸多好处,如大幅增加网络的容量,使分布式系统的设计更为简化。然而,目前实际系统中却很少采用网络编码技术,主要存在的问题有:引