论文部分内容阅读
随着多媒体和网络技术的不断发展,多媒体信息与日俱增,但搜索感兴趣的数据变得日益困难。为此,在信息学科形成了一个全新的研究领域,即基于内容的视频检索(Content-Based Video Retrieval,CBVR),它是根据视频的内容及上下文关系,在视频分析的基础上,提取能够反映视频内容的各种特征,进而通过模式匹配对大规模视频数据库中的视频数据进行检索。本文在数字视频结构理论的基础上,对镜头检测、关键帧提取算法做了进一步的研究和改进,其主要研究内容包括:
(1)在分析视频数据特点的基础上,描绘了一种简单的视频数据模型,该模型可以从关键帧、帧、镜头、场景、故事单元等不同层次对视频结构进行描述。
(2)详细分析和对比了常见的镜头检测算法,发现大部分算法需要设定一个或两个阀值来检测镜头边缘,极大的影响了算法的通用性。本文给出了一种基于机器学习的支持向量机镜头检测算法,无需预先设定阀值,可以同时检测出镜头切变和渐变,且有良好的查全率和查准率。
(3)在关键帧提取算法上,研究分析了传统的关键帧选择方法,在此基础上对聚类算法进行改进,给出了一种FCM聚类融合SIFT特征匹配的算法,通过仿真验证了该算法有较高的查全率和准确率。
(4)讨论了视频数据库结构的重要性。通过对目前三个经典的视频检索系统的框架结构、工作原理、流程等的总结分析,设计了一个通用的基于内容的视频检索系统模型,并对各个模块功能进行了详细的说明,最后通过仿真对比,验证了该设计方案的有效性。