论文部分内容阅读
视频多目标跟踪是计算机视觉的一项重要任务,广泛存在于视频监控、交通控制、自动驾驶以及人机交互等各种应用与研究领域。随着目标检测技术的快速发展,先借助检测技术定位目标,而后运用数据关联技术生成目标轨迹的方法成为多目标跟踪的主流方案,该方法称为基于数据关联的视频多目标跟踪方法。实际情况中,目标运动模式、周围环境、视频成像方式等因素往往十分复杂,使得视频多目标跟踪技术中依然存在许多困难的问题亟待解决。本文针对基于数据关联的视频多目标跟踪方法,围绕它的几个困难的关键性问题开展了深入研究:(1)关联过程中目标的随机出现与消失造成其数目持续动态变化,给数据关联的优化求解带来很大困难;(2)跟踪环境中目标间高区分度特征提取与检测数据的噪声抑制问题;(3)行人多目标运动中近距离的彼此影响与复杂运动规律的准确估计问题;(4)目标密集场景中彼此的频繁遮挡导致大量目标轨迹破碎,这种困难情况下的信息增强与有效关联问题。论文的主要研究内容如下:(1)针对目标数目不确定性问题,提出了一种网络流数据关联求解算法。基于轨迹片段建立网络流数据关联模型,将数据关联转化为求解网络中的最小费用流问题,运用最短路径迭代算法求解各目标轨迹。算法中设计了基于外观特征的前向后向搜索方法,能够有效应对静止摄像机与运动摄像机场景中目标出现与消失状态的判决问题,从而灵活调整网络结构与相应费用参数。为了防止错误性跨越关联情况的出现,在费用中引入了跨越节点的时间成本约束。(2)针对跟踪现场目标的区分问题,设计了孪生堆叠自动编码器特征提取网络。基于高区分度的特征进行轨迹片段数据关联,从而生成各个目标的完整轨迹。孪生结构及其对比损失函数使得此网络能够最大限度地缩小正样本之间的特征距离并增加负样本之间的特征距离。为了更好地对现场目标进行区分,此网络的训练样本从当前时刻的检测数据中收集。样本生成中加入了基于检测位置和尺寸的随机抖动方法,这样既进行了样本增广,又能够起到抑制检测噪声的作用。网络结构采用了较为简单的双层形式,以适应现场小样本数据进行有效训练。面对小样本的训练过程,本网络引入了自动编码约束条件以避免网络过拟合的发生。本跟踪系统基于在线增量的学习方法提取具有高区分度的目标特征,并由此迭代生成更为可靠的轨迹片段。基于轨迹片段还提取了融合外观和运动的综合特征,增强轨迹片段的数据关联能力。(3)针对多行人近距离轨迹运动估计问题,提出了基于视野信息的长短期记忆网络模型与条件随机场数据关联模型。在所设计的长短期记忆网络模型中,利用行人视野信息有效筛选具有高度关联的运动轨迹对,并进行联合运动估计。条件随机场数据关联模型,以具有时间关联可能的轨迹片段对为节点,以视野信息记忆网络模型约束边的建立。每个节点内轨迹片段的关联可能性转化为一元能量,有边连接的节点对中轨迹片段的关联可能性则转化为二元能量,从而实现近距离高关联轨迹片段对的联合数据关联。轨迹片段的数据关联转化为求解最小能量的问题,从而获得目标的完整轨迹。(4)密集人群是行人多目标跟踪中最困难的环境之一,即使有多摄像机可以利用,该任务仍然非常具有挑战性。本研究提出了一种基于跨视角耦合轨迹片段的马尔可夫随机场模型,该模型具有一种新的势函数增强方法,能够对密集行人造成的耦合轨迹片段碎片进行有效关联。其中,跨视角耦合轨迹片段是通过一种基于图像互信息的数据融合方法获得的,这种方法能够综合位置和运动信息计算跨视角二维轨迹片段之间的空间位置关系,并采用了人体关键点检测方法矫正密集行人中残缺与偏差目标的位置数据。针对密集行人场景的势函数增强方法,包括两项措施。前者为同化及其扩展处理,它借助与较长轨迹片段的软连接提升细碎片段的信息,并通过共享信息进行扩展,从而改进相关节点的势函数;后者为消息选择性置信度传播算法,它设计消息选择规则防止细碎片段的不可靠消息在马尔可夫网络中传播。借助这两项措施,马尔可夫随机场模型的势函数通过迭代得以改进与增强,实现对细碎轨迹片段的有效关联,从而对密集人群进行鲁棒跟踪。本文利用公共实验数据集对所提出的各方法进行了测试。实验结果表明,这些方法是十分有效的,它们能够很好地应对上述几个关键性技术问题,是基于数据关联的视频多目标跟踪任务的有效解决技术。