论文部分内容阅读
视频的镜头类型是视频底层特征和高级语义之间的桥梁,能有效弥补两者之间的鸿沟,有助于视频精彩事件检测,促进创建视频摘要,进而满足用户快速查询和浏览视频的要求。现有视频语义镜头标注方法大多基于视频的视觉特征,未充分利用多模态特征,浪费了数据资源,标注效果也有待提升。本文提出了基于多模态特征的视频语义镜头标注方法,并应用于足球视频,主要工作有:(1)分析并提取了足球视频的多模态特征。包括镜头关键帧的视觉特征—草色块个数、人脸区域参数、边缘、纹理和镜头的摄像机运动特征;镜头对应音频信号的平均短时能量、短时过零率、音频帧能量序列的自相关函数特征。同时,本文提出了累积方差法,并结合连通域分析技术提取了足球视频记分牌中的时钟数字,采用支持向量机(Support Vector Machine, SVM)对提取出的时钟数字进行了识别,用关键词匹配方法提取了足球视频网络直播文本的文本事件及对应的时间标签,并将文本/视频的时间进行了对准。实验结果证明了特征提取方法的正确性。(2)分别将提取出的一部分视频镜头的视觉特征矢量集和多模态特征矢量集作为训练数据,输入分类器,采用决策树C4.5挖掘特征矢量和镜头类型之间的潜在关系,即建立语义镜头标注的模型,并用该模型对新的足球视频镜头集进行了语义标注。实验结果证明,本文基于多模态特征的视频语义镜头标注方法比基于视觉特征的标注方法性能好。最后总结了本文的研究内容,展望了未来的研究方向。