论文部分内容阅读
在视频目标跟踪技术中,精度和速度是衡量复杂环境下跟踪算法性能的两个重要指标。近年来,相比于传统目标跟踪算法,深度学习模型因其强大的特征提取能力对跟踪精度的提升做出了突破性的贡献,但其跟踪速度较慢。最近,有学者将深度强化学习应用到视频目标跟踪技术中,其在速度方面相比于深度学习目标跟踪算法得到了改善,但精度略差于深度学习目标跟踪算法。跟踪精度和跟踪速度相互制约的问题是现有的深度学习及深度强化学习视频目标跟踪算法面临的主要挑战。基于此,本文对深度学习以及深度强化学习在视频目标跟踪中的应用进行了比较性研究,主要工作如下:(1)系统全面的综述了深度学习及深度强化学习在视频目标跟踪技术中的研究现状并指出了各类方法的优缺点。首先,针对现有的依赖于离线训练的深度学习目标跟踪算法在在线跟踪过程中精度和速度相互制约的问题,按照不同的解决思路,将其分为有在线微调和无在线微调的深度学习跟踪两大类,并分析了各类方法的优缺点。其次,针对现有的深度强化学习目标跟踪算法,按照强化学习的不同作用,将其分为以强化学习决策目标位置的跟踪和以强化学习预测目标位置的跟踪两大类,并对其进行了总结分析。(2)针对利用非跟踪数据集离线训练的深度学习跟踪器在复杂环境下跟踪精度不足的问题,研究并实现了直接利用跟踪数据集离线训练卷积神经网络的视频目标跟踪。首先,构建多分支卷积神经网络,其包括通用特征层和特定特征层。其次,利用多域学习的思想对网络进行离线训练,主要目的是利用通用特征层从所有训练视频序列中提取目标的通用特征表达。最后,将提取到的通用目标特征表达用于目标的在线跟踪。实验将基于卷积神经网络的视频目标跟踪算法(MBCNN)与4种主流的跟踪算法(DLT、TLD、Struck、CXT)进行对比评估。在OTB50数据集上基于整体性能和基于属性性能的定量实验结果以及在4个存在于真实场景的视频序列上的定性实验结果表明,利用跟踪数据集进行离线训练的深度学习视频目标跟踪算法在复杂环境下具有更高的跟踪精度。(3)针对视频目标跟踪技术中跟踪速度和跟踪精度相互制约的问题,研究并实现了基于深度强化学习的视频目标跟踪。首先,分别利用有监督学习和强化学习训练卷积神经网络,使网络实现从给定状态到动作的映射。然后,在在线跟踪过程中,预训练之后的卷积神经网络根据输入状态可以预测出合适的动作来移动代表目标状态的矩形框的位置,当预测出停止动作时,此时的矩形框位置即为当前帧的跟踪结果。实验将基于深度强化学习的视频目标跟踪算法(ADCNN)与4种主流的跟踪算法(SCM、TLD、Struck、CXT)进行对比评估。在OTB50数据集上基于整体性能和基于属性性能的定量实验结果表明,深度强化学习视频目标跟踪算法在跟踪速度和跟踪精度之间可以实现较好的平衡。与此同时,在5个同时具有多种挑战性属性的视频序列上的定性实验结果表明,深度强化学习视频目标跟踪算法可以在大多数挑战性属性下实现鲁棒跟踪。(4)基于属性的跟踪算法适用性分析。针对目标跟踪中存在的11种挑战性属性,考虑到不同算法在某些属性下的跟踪精度并无显著性差异,但其跟踪速度却具有显著差异,以研究的深度学习跟踪算法MBCNN和深度强化学习跟踪算法ADCNN为对象,进行了基于属性的跟踪算法适用性分析。首先,通过实验比较分析了在精度和速度具有不同需求的实际场合下,MBCNN有无在线微调时基于11种属性的适用性。其次,通过实验比较分析了在精度和速度具有不同需求的实际场合下,MBCNN和ADCNN基于11种属性的适用性。以此为用户根据自身对精度与速度的不同需求,在具有不同属性的序列上选择合理的跟踪算法提供了理论基础。