论文部分内容阅读
计算机视觉技术是一门使用摄像机、电脑、采集器等设备代替人眼来对目标进行测量、跟踪和识别,并对目标做处理和分析的人工智能技术。随着社会与科学的发展,对视频目标的跟踪、检测和识别技术的研究已成为当今人工智能学界的研究热点;对卷积神经网络运用的探索,成功的将视频图像处理技术领入深度学习领域。然而常见的基于深度学习的目标识别、检测算法都是针对单标签目标的识别,仅通过一个角度对目标特征进行描述,这与现实生活中的事物总含有多方面意义的事实相抵触。因此,本文深入分析、研究了近几年来深度学习领域中目标跟踪、检测和识别方面的主要成果,进行综合和改进,提出了一种运动目标的多标签综合识别算法。本文首先分析、研究了卷积神经网络的基本原理以及CNN在图像特征提取方面的有效性和优越性,并以CNN为基础构建了目标外形识别网络。同时深入研究了深度学习领域中循环神经网络和长短时间记忆网络的原理,以及LSTM网络对RNN的优势所在,结合LSTM网络学习时间上长期记忆信息的能力和CNN提取图像目标特征的优势,实现了基于LRCN的目标行为识别算法。此后,本文深入研究了 TLD目标跟踪算法的相关内容,依靠CNN的特征提取能力,使用CNN作为算法的检测器部分,提出一种基于卷积神经网络的TLD目标跟踪算法,并通过实验验证了该算法的有效性和鲁棒性。本文最后分析、总结了 CNN、LSTM模型、TLD跟踪算法以及Softmax分类器的研究成果,结合多标签学习的相关内容,提出了运动目标的多标签综合识别算法,该算法能从目标外观和目标行为两个角度对运动目标进行识别。本文详细叙述了多标签综合识别算法各个模块的功能需求与设计内容,解释了算法模型的基本结构与优化操作。本文还对多标签识别算法进行测试,实验结果表明该算法对比单标签识别算法在功能和性能上有一定优势。