论文部分内容阅读
目标检测问题是计算机视觉领域非常热门的研究方向,目前在学术界中针对单幅图像的目标检测已有许多代表性算法,但针对视频目标检测问题的研究进展比较缓慢。图像数据与视频数据比较,撇去形式不谈,后者的信息量更大更冗杂,如今互联网技术与移动通信技术飞速发展,不论电脑端还是移动端,视频数据在我们的生活中扮演越来越重要的角色,视频目标检测也势必成为当下的研究焦点之一。目标检测这门学科具体而且核心,它的任务是找出图像中所有感兴趣的目标,通常输出结果会以边界框的形式确定目标在图像中的具体位置,大小以及所属物体类别。视频目标检测任务就是找出视频中所有感兴趣的目标,并完成定位、识别和分类任务。然而在一段视频帧序列中,相邻帧图像往往具有极大的相似性,而且前后帧还存在上下文关系,这是单幅图像所不具备的特点。因此,看上去视频目标检测与图像目标检测大同小异,但实际算法设计上却有着很大区别。本课题在此前微软亚洲研究院关于光流法视频目标检测的固定间隔关键帧选取算法和密集特征增强算法的基础上,提出了一种基于分片的关键帧插入策略的算法,这种新算法在整体结构上依然是特征级别的检测原理,即结合特征提取网络与基于区域的全卷积网络。算法的核心思想是分段化地选取关键帧,以固定间隔的关键帧序列作为初始状态,判定当前关键帧与下一关键帧的相似程度是否达到相似度阈值,插入新关键帧,否则跳过至下一关键帧继续判定。直到确定所有的关键帧,最终形成呈片段分布趋势的关键帧序列。通过实验,本文提出的算法可以针对不同场景和需求进行参数调试,达到当前最佳效果。