论文部分内容阅读
随着互联网和多媒体技术的迅速发展,视频信息资源日益丰富,面对海量视频信息,如何快速有效地进行视频内容分析和检索成为当前视频信息领域研究的热点。基于内容的视频检索综合了视频处理、图像理解、模式识别、数据库等领域的知识,使用视频底层特征作为检索依据,克服基于文字检索方式的不足,具有广阔的应用前景。
论文针对基于内容的交互式视频检索技术中镜头边界检测、镜头相似性度量、视频检索相关反馈以及相关反馈中半监督学习等问题展开研究,主要工作如下:
(1)提出一种基于运动补偿的自适应阈值镜头边界检测方法:用一个累积帧存储每一帧间的差异,放大渐变的特征变化,利用块匹配算法对运动进行估计和补偿,减少物体运动对镜头边界检测的影响,并根据帧颜色亮度和饱和度与阈值之间的关系,自适应地选取阈值,提高镜头边界检测的准确性。通过对不同视频片段镜头分割实验,结果表明本文的提出的算法能够在较小计算强度下很好地实现镜头渐变检测。
(2)提出一种基于组合相似性的镜头相似性度量方法:首先通过视觉聚类方法对镜头进行关键帧提取,把镜头看作关键帧序列组成的组合,把两个镜头的相似性度量建立在组合相似性上,然后基于核方法,通过一个非线性映射,把原始数据空间映射到一个高维特征空间,在这个空间中可以假设特征向量表示的关键帧序列服从高斯分布,利用常用概率距离公式得到两分布之间距离值,以此衡量两个镜头的相似程度。该方法从整体上度量两个镜头之间相似性,克服了关键帧(帧)之间点点比较的缺点,实验结果表明,该方法的检索效果明显优于传统的基于欧氏距离的方法和最近邻线(NFL)方法。
(3)在检索过程中引入人的因素,提出一种基于贝叶斯相关反馈的交互式视频检索方法:视频库中每一个镜头与查询例子的相似程度由该镜头目标概率来衡量,每一次迭代过程中根据目标概率变化从视频库中选择若干镜头供用户标记,系统根据用户标记的相关和不相关镜头估计用户模型,利用用户模型结合上一次迭代得到的目标概率通过贝叶斯公式得到视频库中每一个镜头新一轮的目标概率,使得与查询例子相似的镜头目标概率值不断增加。实验结果表明,在不同镜头相似性度量下,该方法均可明显提高检索性能,且只需要很少的反馈次数就能达到很好的检索效果。
(4)在交互式视频检索中,针对相关反馈在线学习中训练样本少、存在大量未标记样本、在线特征选择问题和训练样本的不对称性等问题,提出一种基于高斯随机场模型(GRFM)半监督学习视频检索相关反馈方法:利用半监督学习算法根据用户标记的相关和不相关镜头,结合本轮目标概率更新后视频库中大量未标记镜头,首先利用标记和未标记镜头建立一个图,其中,图中结点为标记和未标记镜头,图中边的权值由镜头之间的相似程度决定,然后求解根据流形假设定义的能量函数的最优值,从而获得对未标记镜头的最优标记,使得相关反馈学习中训练数据集得到增强,改进相关反馈学习能力。实验结果表明结合半监督学习算法后贝叶斯相关反馈视频检索性能有一定的提高。