论文部分内容阅读
目标跟踪是机器视觉领域中一项非常传统也是极具挑战性的任务。对于一个具有丰富外观信息的跟踪目标来说,其外观模型的优劣对于目标的准确跟踪具有非常关键的作用。针对于一个非特定目标,由于无法使用一些特定的先验知识,目标的外观建模往往不能准确地刻画目标,并且难以捕捉学习到各种场景下复杂的外观变化。近年来,深度学习技术及其一些相关的神经网络模型在层级特征学习上表现出了强大的学习能力,并且已经在图片分类、目标识别和场景理解等任务中取得了重大成果。考虑到深度网络模型强大的层级特征学习能力,本文主要研究了基于深度学习的运动目标检测与跟踪问题。借助几种深度网络模型的特征学习能力,本文对非特定跟踪目标进行了细致的外观建模,在精确刻画目标外观的同时通过在线更新来捕捉复杂场景下的目标外观变化。此外,针对没有显著外观信息的小目标,本文秉承了深度学习的层级处理思想,综合使用局部和全局的约束信息来对小目标的轨迹进行鲁棒估计。在训练学习问题被解决之后,深层神经网络被广泛使用在语音识别、机器视觉等各项任务中,并被证明具有优良的层级特征学习能力。相比于传统手工设计的特征算子,通过无监督预训练得到的层级特征是完全由数据驱动学习得到的,除了具有性质优良的层级抽象性能,并且与特定任务特定目标没有直接依赖关系。有鉴于此,本文基于深度学习中的迁移学习理论,使用层叠降噪自编码器以无监督方法在大量辅助数据中离线地学习到一个通用的层级图像特征表示,并通过精调训练以建模刻画各类不同跟踪目标的外观特性。通过深层网络结构学习到的层级特征表示的每一层具有不同程度的特征抽象度,而哪一层特征更加适合于不同场景下的目标描述这个问题尚没有确切的答案。为了尽可能的综合运用各层的抽象特征表示,本文提出了基于AdaBoost算法的在线融合深度层级特征的方法用于在线建模目标的外观。本文方法提供了一个综合使用不同层级图像特征的具有良好扩展性的框架,并在各种具有挑战性的公开测试集上获得了较为鲁棒的跟踪性能。相比于前馈神经网络,卷积神经网络所具备的卷积和池化操作在处理图像数据方法具有得天独厚的优势。各种基于卷积神经网络的方法已经被应用于图像处理和机器视觉的多个任务中,并取得了优良的性能,证明了卷积神经网络对于图像数据比前馈神经网络具有更好的特征学习能力。此外,离线的预学习过程大大限制了在线目标跟踪系统实用性。有鉴于此,本文研究了如何将深层卷积神经网络应用到基于小样本集的在线目标跟踪系统中的外观建模任务。虽然深层卷积神经网络在各种大图片、多数据量的离线任务中取得了巨大成功,但直接将其在应用于在线小训练数据集上的学习任务时,网络很容易出现过拟合,且对低可靠度的训练样本较为敏感。为了解决这些问题,针对于粒子滤波器的粒子演化过程,本文提出了一个基于Metropolis-Hastings算法的粒子重采样方法,并通过一个自顶至底的广度优先分割算法来实现。该重采样不仅可以得到更为鲁棒的粒子后验分布,而且有助于提取一系列具有高可信度和针对性的训练样本,以供训练出更加鲁棒的卷积神经网络模型。本文方法在各种测试数据集上相比之前的一些经典目标跟踪方法有较大的性能提升。就目标外观建模问题而言,同优良的图像特征算子一样,图像的空间上下文依赖关系对于目标外观的刻画理解同样具有重要的作用,不应当在特征提取过程中被轻易丢弃。前馈神经网络和卷积神经网络的主要优势在于层级特征的学习,但对于目标图像区域的空间上下文关系没有给予足够的重视。与其不同的是,递归神经网络作为一个强大的序列建模工具,其主要优势在于能够学习序列中隐含的上下文依赖关系。特别地,在长短时记忆单元(LSTM)解决了递归神经网络训练过程中的梯度消失问题之后,基于LSTM的递归神经网络在如手写识别、语音转换和场景理解等需要建模上下文关系的一系列任务中展现出了巨大的学习能力。有鉴于此,本文研究了如何在提取层级图像特征的同时,使用递归神经网络模型来建模出目标区域的上下文依赖关系。通过将目标矩形边界框区域表示成若干具有方位语义意义的子块组成序列形式,本文提出了一个使用双向长短时记忆单元的递归神经网络模型(BLSTM-RNN)将在线目标跟踪任务转化一个序列标注问题的目标跟踪方法。通过BLSTM-RNN模型对子块序列中潜在的上下文约束关系的学习,本文得到了一个带有丰富标注信息的外观模型。通过这些标注信息,本文分别采用了一个鲁棒的目标位置估计方法和一个启发式的在线模型更新策略。本文方法不仅提供了一种解决目标跟踪任务的不同思路,并且在公开测试平台上达到了与当前最新的一些跟踪方法相当的性能。在小目标跟踪任务中,由于目标所占据的描述像素数量很少,目标几乎没有丰富的外观信息以供建模使用。在此场景下,以强大特征学习能力见长的各种深度网络模型无法被用于构建外观模型。然而,包括深度学习在内诸多研究所采用的层级处理思想同样可以被应用于无显著外观信息的小目标跟踪任务中。一直以来,小目标跟踪任务都被处理成一个数据关联问题,即从含有真实目标的大量虚假目标中找到一组对应关联关系以作为目标的最终轨迹。针对混乱背景下的小目标跟踪任务,本文提出了一个层级的数据关联方法用于鲁棒估计小目标的运动轨迹,并成功应用在网球比赛中的网球轨迹跟踪。本文提出的层级数据关联方法包含有两个层级处理阶段,分别用于使用局部和全局的轨迹约束关系来获得最终鲁棒的目标轨迹。此外针对小目标跟踪任务中频繁出现的短时和长时失检测问题,本文还分别从局部和全局角度进行了研究和解决。本文方法针对网球轨迹跟踪任务在真实比赛视频上的测试结果要优于一些当前流行的数据关联方法,并且在准确率和召回率之间做出了较好的折中。