论文部分内容阅读
视觉跟踪广泛应用于安防监控、虚拟现实、工业制造等领域,其作为人工智能技术重要组成部分,是国内外广大学者的研究重点与热点。视觉跟踪随着过往多年的研究发展逐渐遭遇瓶颈,但深度学习技术的崛起为视觉跟踪研究注入了新的活力,跟踪技术借此获得了令人惊叹的性能跃升,促使该领域迈向新阶段。但是,在现实跟踪过程中却存在着多种挑战因素与复杂场景造成视觉目标跟踪依旧不够精确和稳定的问题,与达到理想的跟踪效果还有一定差距。本文以孪生神经网络为基础进行研究提出了两种视觉目标跟踪算法并设计了一个单目标实时跟踪系统,其主要内容如下:(1)为解决多数孪生网络跟踪算法存在骨干网络特征提取能力弱、模板不适应目标变化等问题。本文在Siam FC(Fully Convolutional Siamese Networks,Siam FC)算法基础上,提出基于可变形卷积的孪生网络跟踪算法(Target Tracking Based on Deformable Convolution Siamese Network,DCSiam)。首先,采用可变形卷积模块在不同方向上学习多层特征数据的自适应偏移量,增大卷积过程中有效感受野。然后,通过多层可变形互相关融合得到最终响应图,以增强骨干网络深层语义特征提取能力。最后,采用一种高置信度模板在线更新策略,每隔固定帧计算响应图的峰值旁瓣比与最大值作为更新依据,使用加权的方式融合特征以更新模板。采用多个公共数据集对算法进行性能评测。实验结果表明,在OTB2015数据集上,DCSiam算法整体精确和成功指标较基线分别提高9.5%和7.5%,很好地实现了复杂场景下目标跟踪的精确与稳定,验证本文所提算法的先进性。(2)针对多数孪生网络跟踪算法只关注模板与搜索区域的相似性,而忽视了跟踪过程中历史帧对于目标渐变过程的重要性以及传统边界框预测较为复杂等问题。本文在Siam FC算法基础上提出了基于时空注意力的孪生网络跟踪算法(Target Tracking Based on Temporal Spatio Attention Siamese Network,TSASiam)。首先,采用非局部操作的时空注意力模块嵌入到骨干网络之中,辅助网络模型学习视频序列中最具判别性的历史帧与帧内区域。随后,采用了逐像素的分类回归的方法,对响应图中像素进行前景与背景的区分,并回归视为相对边界框,通过计算像素点与预测边界框的距离,并联合中心度分支抑制低质量边界框的产生,降低预测复杂度的同时提升目标定位精度。采用多个公共数据集对算法进行性能评测。实验结果表明,在OTB2015数据集上,TSASiam算法整体精确和成功指标较基线分别提高了4.35%和6.00%,较好地实现了复杂场景下目标跟踪的精确与稳定,验证本文所提算法的有效性。(3)依托本文所提基于可变形卷积的孪生网络跟踪算法为核心,利用Flask Web应用框架为基础开发了一个单目标实时跟踪系统。用户输入指定网址进入登录界面,输入账号密码进入到系统后端界面,随后利用按钮和鼠标与服务器端进行交互,实现对上传视频序列或摄像头画面中目标进行选取并持续跟踪。用户端拉动矩形框提供目标初始位置信息,服务器端调用算法模型利用前端提供的信息完成初始化工作并提供跟踪定位服务,并将跟踪定位数据和画面回传至用户端界面,随后对每次跟踪服务进行日志记录。最后对系统多个模块进行性能测试并展示其运行成功效果,验证本文设计的单目标跟踪系统的可靠性和算法的工程意义。