论文部分内容阅读
近年来,随着视频检索技术的快速发展,如何跨越语义鸿沟,使机器像人类一样更好的理解视频中的语义概念,满足用户对视频信息管理和检索的需求,已经成为目前迫切需要解决的一个重要问题。因此,视频高层语义概念检测技术已成为新一代多媒体搜索引擎的研究热点。本文研究基于多特征融合的视频高层语义概念检测技术,全面分析了底层视觉特征的提取技术,并提出了一些新的融合算法,主要内容如下:底层视觉特征方面,本文全面分析和比较了颜色、边缘、纹理等全局特征和SIFT、HOG等局部描述子特征的特点及其在视频语义概念检测中的性能。本文采用Bag-of-Feature关键点投影算法来组织和表达局部描述子特征,有效地量化了关键点特征,提高了分类器的训练速度;在此基础上本文采用了基于空间金字塔的特征匹配技术,克服了以往方法完全丢弃特征点空间信息的问题。另外,本文还引入了文本检索领域的PLSA算法,与空间金字塔技术相结合,在全体数据集上分析视觉词汇的上下文关系,进一步增强了视觉特征的语义表达能力,并降低了计算复杂度。系统融合算法方面,本文在特征级、核函数级和分类器级别上研究视频语义概念检测中的系统融合技术,提出了一种基于多核学习的核函数级系统融合算法和一种基于逻辑回归与线性加权分类器级系统融合算法,将不同视觉特征的优势有效地结合起来,增强了对视频中场景、物体、事件等多类语义概念检测的鲁棒性。在这些算法的基础上,本文还提出了一种结合多种融合算法的多层次融合框架,在实验中获得了更好的概念检测性能。在TRECVID 2009高层特征提取评测和TRECVID 2010的语义索引评测中,本文构建的基于多种底层视觉特征融合的视频高层语义概念检测系统均名列前茅。