论文部分内容阅读
目标检测与目标跟踪是属于计算机视觉领域和视频处理的热点问题之一,随着人工智能以及大数据的迅猛发展,在诸多领域如视频安防,自动驾驶,虚拟现实,图像理解,机器人控制,基于视觉的控制都需要它们的研究发展。现实生活中由于多种应用场景下需要保证要求的准确检测跟踪的同时,又需要有实时检测跟踪的要求,这就给这个研究领域带来巨大的挑战。目标跟踪是在视频序列中不断找到需要跟踪的目标,跟踪算法整体上也从传统的基于特征提取和机器学习到基于深度学习的神经网络跟踪起。近年来在目标检测跟踪领域,基于深度学习端到端的卷积神经网络得到迅猛发展,尤其是结合起源于信号处理领域的相关滤波方法的神经网络目标跟踪器。就计算机视觉而言,基于卷积神经网络的目标跟踪不需要自己定义特征,深度学习神经网络对特征有强大的描述能力,可以自己学习到图像特征,跟踪效果比自己定义的特征效果会更好,正因为如此利用端对端的深度学习框架网络跟踪结构应用广泛。本论文基于深度学习同时结合传统的相关滤波方法以及注意力机制,对目标检测跟踪进行了深入的研究。以提高跟踪准确率,增强跟踪的鲁棒性,同时保证跟踪的速度为目标。有效的利用深度卷积神经网络的深层和浅层的特征,充分利用不同层的特征信息和语意信息。提出了基于孪生网络并结合通道和空间注意力机制的方法,充分利用通道和空间两个维度提高跟踪网络的准确率。本文的研究工作如下,使用Alex等人提出的Alex Net作为跟踪孪生网络的基准特征提取器,设计通道注意力和空间注意力模块,将注意力机制用于网络,引入目标检测中的RPN网络思想,并从分类和回归两个分支进行端到端的目标跟踪器的训练,将视觉跟踪问题看作为一个互相关问题。对训练过程中存在分类损失和回归损失不平衡的问题,对损失函数进行了设计,加快了网络模型的训练收敛和学习速度的同时,进一步提升了目标跟踪网络模型的性能。讨论在目标跟踪领域使用深层神经网络架构的可行性,采用空间感知采样策略和多层信息融合解决深层网络用于跟踪网络存在的问题。