【摘 要】
:
目标跟踪的算法实现在智能视觉信息处理系统设计中占有重要地位,而研究出简洁高效的相关滤波目标跟踪算法更是重中之重。本文主要的研究对象为非弱小、非刚性且可跟踪的变形目标,研究重点在于可见光视频下目标出现形变时,如何提高算法的多场景适应性和精确度。不同于目标平移或者尺度放缩,目标变形属于高维度的图像变换,因此基于模板特征的相关滤波算法不能很好地预测出下一帧目标形变的具体情况。本文主要研究内容如下:(1)
【基金项目】
:
实验室与中船重工第七一六研究所合作项目,“基于学习的目标跟踪算法性能评估系统”,研究年限为2019.07至2020.5;
论文部分内容阅读
目标跟踪的算法实现在智能视觉信息处理系统设计中占有重要地位,而研究出简洁高效的相关滤波目标跟踪算法更是重中之重。本文主要的研究对象为非弱小、非刚性且可跟踪的变形目标,研究重点在于可见光视频下目标出现形变时,如何提高算法的多场景适应性和精确度。不同于目标平移或者尺度放缩,目标变形属于高维度的图像变换,因此基于模板特征的相关滤波算法不能很好地预测出下一帧目标形变的具体情况。本文主要研究内容如下:(1)研究了目标的视觉表征方法:本文研究了基于人工特征(Handcrafted Feature)和深度特征结合的运动目标表征方法,以及人工特征与深度特征相融合的策略,帮助提高了算法的特征表述能力;并结合了目标和模板的相似性(Similarity)以及非背景性(Objectness)的信息,利用卷积神经网络构建了目标特征模板更新策略的框架,以便于有效维护可靠的目标特征模板。(2)研究了相关滤波时空正则项:本文系统性地分析研究了相关滤波算法的时空正则项,针对变形目标外观特征易变的特点,设计出适合变形目标的时空正则项。具体来说,本文使用松弛L0范数对相关滤波器的空间注意力进行建模,使得相关滤波算法更加关注于对目标较为可靠的区域进行跟踪,算法效果在OTB100、VOT2016以及La SOT数据集上进行了测试。(3)研究了在相关滤波中结合精确外观估计模型的目标跟踪算法:目标粗略的定位估计功能由相关滤波算法实现完成,目标精确的外观估计功能由深度分割网络完成,二者相结合形成了本文中这种通用目标跟踪框架。通过相关滤波跟踪响应、前景概率估计以及深度分割任务学习算法的结合,目标外观估计精度已达到了像素级的水平,算法效果在OTB100、VOT2016以及DAVIS2017数据集上进行了测试。(4)设计了一款用于视频目标跟踪的软件,具体工作包括有软件架构设计、软件界面设计、算法接口设计,以及软件功能测试,并通过自定义的四个技术指标对部分跟踪算法进行效果测试。
其他文献
双目立体匹配是模拟人类视觉获取深度的技术,广泛应用于路径规划、光学测量和即时定位与地图构建等领域。相比于传统方法,基于深度学习的双目立体匹配技术具有特征鲁棒性好、视差结果稠密等特点,但面临高反光物体引起的过曝现象时,仍存在误匹配问题。同时,相关数据集的缺乏限制了过曝场景下相关技术的研究。镜面反射引起的过曝现象会导致双目图像的匹配特征消失,引起误匹配导致视差估计精度降低。因此,本文从修复过曝区域丢失
目标检测是计算机视觉中的一个基本问题,它可以为实例分割和姿态估计等许多视觉任务提供支持,但因为仅有图像信息在某些情况下准确度还有待提升。通过无线信号来获得定位信息可以用来得到需要被检测对象的数量和位置。随着物联网的发展,能量可收集无线通信得到了越来越广泛地应用,它可以帮助无线传感器从自然界中获得能源来驱动通信。本文将目标检测框架、无线定位装置和能量采集无线通信相结合,设计了一个目标检测系统。整个系
常规数字化相机采用“红-绿-蓝”单传感色彩滤波阵列实现对真实场景色彩信息的获取,以达到节约存储空间的目的,所获取的每个像素位置只能表征红(R)、绿(G)、蓝(B)颜色中的一种颜色值,以这种方式获取的图像通常被称为马赛克图像。马赛克图像必须超分辨重建才能恢复成RGB彩色图像,这一过程叫做图像去马赛克。对图像去马赛克会带来数据量的增加,如果再进行图像压缩,则会影响数据压缩效率。为了节约存储空间和传输带
由于性价比高和对人体相对低的辐射剂量,全景X射线和锥束CT是目前牙科分析中有用的检查方式。牙齿分割是诊断牙齿疾病(如龋齿拔牙或牙髓疾病)前的关键步骤,但术前人工标记牙齿区域的过程既复杂又耗时。医学图像中牙齿分割的主要挑战在于三个方面。(1)外观变化大:对于有缺牙、修复体、矫治器的病例,主牙区的外观可能发生较大变化。(2)局部成像过于明亮:修复体和假体的牙科材料会产生明亮的金属伪影。(3)牙根周围边
视觉SLAM技术是机器人、无人驾驶、视觉惯导、虚拟现实以及增强现实等新兴邻域的核心技术。视觉SLAM技术的精度、鲁棒性和实时性是影响其在这些先进科技邻域中产业化应用的主要因素。传统的两类视觉SLAM方法,直接法和间接法,各自都存在一些优势与不足,且两者的特性非常互补。一类新的视觉SLAM方法通过将这两种传统视觉SLAM方法进行融合,结合两者的互补优势来提升性能,这类新方法被称为半直接法或混合方法。
静态随机存储器(Static Random Access Memory,SRAM)是片上系统(So C)的重要组成部分,被大量应用于手持电子设备、传感器和医疗器械等超低功耗应用中。由于动态功耗与电源电压呈平方倍的关系,降低系统电源电压可以极大地降低其功耗。但由于在超低压下SRAM单元难以稳定工作,单纯地降低电源电压已经不再能满足超低功耗的需求。从而在一些可以忍受低位错误的应用中,如视频图像处理、大
为了解决活门零件人工装配过程错装、漏装零件导致质量隐患的问题以及装配过后人工检错拉低活门产品生产效率的问题,本论文依托活门零件装配智能防错系统研究课题,对活门零件装配过程中的防错技术展开了研究。本课题依据防错理论,结合活门零件装配实际工况分析,设计了装配前可视化引导防错搭配装配后实时检测防错的“双保险”防错方案。其中,可视化引导防错采用参数化三维建模的方式对零件进行三维建模,依据工厂现有的二维书面
可见光和红外光电设备在军事和民用领域使用越来越广泛,将双波段集成的光电设备逐渐成为一种趋势。如何有效的测试多光路设备也逐渐成为光电设备发展的重要问题。本文主要研究内容是设计并搭建一套多光融合的光电测试系统,实现可同时对可见光和红外光电设备性能参数的测试。本文分析了光电设备测试系统中多光路融合的实现原理和二维成像器相关参数的测试理论基础。其中可见光相机关键参数包括调制传递函数(MTF)、分辨率、最小
科技资源检索是科技资源服务的重要手段,是决定科技资源是否能被切实、有效利用的关键环节。但科技资源在检索过程中往往存在检索精度低,人工投入大,结果不理想等问题。现有对科技资源的检索方式主要是通过用户输入查询关键词,得到一系列相关结果,再由人工筛选判断后找到合适的检索结果,使得检索结果冗余、不准确,且耗时耗力。现有方法的主要问题是缺乏对实际需求的匹配和对科技文本资源语义的理解。由于科技资源不同于日常普
感知技术作为智能驾驶领域中的关键技术之一,决定了汽车自主驾驶的能力和智能化水平。而行人检测作为感知检测任务的重要一环,在摄像机较低的成本和不错的性能下,使得基于视觉图像的行人检测技术得到了广泛的研究。因此,本课题将基于视觉图像对行人检测难点展开研究。本课题的主要研究工作如下:对比分析了目标检测和行人检测模型的发展,研究了基于深度学习的目标检测基础理论,包括常见网络结构和训练策略,以及驾驶场景数据集