论文部分内容阅读
自从计算机诞生以来我们就不断试图让计算机理解人类所观察到的事物。从数值计算,符号计算开始,人们不断推进计算机的”理解能力”。文字,图像,视频等多媒体内容的理解牵涉到高层的语义,计算机能否对这些内容给出对应的语义标签是让计算机对这些对象有认知的第一步。通常我们对视频进行语义标注都需要将标签限定在一个范围中,这是因为通用的对所有视频的标注系统难以避免语义鸿沟。在给定的标签范围内,我们对视频数据进行分类。这使得我们的目标变得可行。视频的特点是它具有多种特征,包括音频,静态图像,文字以及动作特征。通过实验我们发现,动作特征对于区分以动作为语义的视频是有效的。以往的视频标注系统对于如何使用如此多的特征种类对视频进行分类性能的提高并没有很好的考虑。我们认为多种特征的融合有利于发挥各种特征的区分能力,对不同的视频类别,不同的特征的描述能力也是有强弱之分的。我们使用核化的logistic回归作为框架,对从视频数据提取的多种特征用多距离学习的方法,学习出每一个视频类别的特征权重系数。为了达到特征选取的目的,我们引入权重系数的一阶范数惩罚。这使得无关的视频特征的权重降低为0。为了防止模型过拟合,我们还对logistic回归的参数进行了二阶范数的惩罚。由于目标函数相对于这两组参数不是一个凸函数,因此我们采用了轮换迭代的方法分别对目标函数进行优化求解。在Columbia Consumer Video(CCV)数据集上的实验表明,我们的方法能够显著提高视频分类的性能,并且能够处理带有动作语义特征的视频数据。我们继而分析了不同语义标签的权重变化,说明了一阶范数对于惩罚无关特征的作用。