论文部分内容阅读
视频目标跟踪是计算机视觉领域中的经典问题。其通过第一帧中的目标图像来预测目标在之后各帧中的状态,为行为分析和异常检测等研究提供轨迹信息。随着人工智能和机器学习算法的不断发展,视频目标跟踪已经广泛应用于人们的生产生活中,对其研究具有较高的理论价值和广泛的应用价值。由于跟踪目标和场景的复杂性与多样性,提升跟踪算法在遮挡、快速运动、形变等复杂场景下的跟踪性能,仍然是视频目标跟踪中亟需解决的问题。本文针对视频目标跟踪算法在复杂场景下所面临的问题和挑战,分别基于生成式模型、判别式模型、混合式模型以及深度模型四个方面构建跟踪算法,以期获得一个具有较好普适性和跟踪性能的视频目标跟踪方案。本文主要的研究内容及成果如下:(1)提出了一种基于双层超像素和反馈机制的生成式跟踪算法。首先,采用双边滤波器滤除视频图像中的噪声,突出目标的边缘信息,以便目标的超像素分割,并提出一个基于粗、细粒度超像素的目标外观表征模型。该模型可以自适应调节超像素个数,提升外观表征模型的表征能力。然后,提出一种结合超像素颜色和空间相对位置的相似性度量方法用于置信度图的计算,该度量方法同时考虑了目标的颜色相似性和空间结构信息。最后,通过反向跟踪方法将视频目标跟踪设计成一个闭环系统,为前向跟踪提供反馈和监控,也对外观表征模型的更新起到指导作用。(2)提出了一种基于多尺度超像素相关滤波的判别式跟踪算法。该算法将视频目标跟踪看作是组成目标各个部分的最优组合问题。首先,提出多尺度的超像素分割算法对目标图像进行分割,其按照全局置信度掩码中置信度的不同对目标进行划分。然后,利用基于高斯分布的运动模型及候选目标子块与模板之间的相关性计算候选目标子块的置信度。同时,提出基于颜色相似性权重的引导算法用于候选样本子块的进一步筛选。此外,通过GEP算法(Gene Expression Programming,GEP)和最小最大准则对目标子块间的最优组合进行搜索,从而实现对目标状态的估计。最后,提出监控更新策略用于跟踪进程监控和参数自适应调整。(3)提出了一种基于多特征多跟踪器融合机制的混合式跟踪算法。该算法通过变体贝叶斯滤波框架融合了基于特征级融合和决策级融合的跟踪方法。首先,采用多种特征构建外观表征模型,并采用多跟踪器构建运动模型。然后,提出权重投票选择策略和基于PageRank的选择策略用于筛选候选样本,从而预测目标的状态。这两种选择策略同时考虑了候选样本和目标模型之间的外部相似度以及候选样本之间的内部相似度。最后,基于短轨迹预测和比较提出决策和更新策略用于解决选择策略之间的不一致问题。该更新模型能够对目标表观模型和多跟踪器进行更新。(4)提出了一种基于辅助重定位和注意力抖动的深度跟踪算法。该算法首先利用Shake-Shake结构将两种不同的注意力机制进行融合,从而构建注意力抖动层。并将其替换孪生网络中的池化层,来提升孪生网络的表征能力。然后,该算法还根据跟踪中的先验假设,提出包括结构相似性权重,运动相似性权重,运动平滑性权重以及目标显著性权重在内的辅助重定位分支,用于当跟踪处于不可信状态时对目标进行重定位。最后,依据孪生网络响应图设计了一个开关函数,用于监控视频跟踪算法的运行状态和可信度。