可见光与红外图像的特征转换方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:ade4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可见光图像符合人眼视觉特性,而红外图像能够体现场景温度信息,二者的成像谱段和原理不同,但都具有重要应用价值。传统建模的红外图像仿真方法精度较低且建模复杂,而可见光的图像资源丰富,因此本文研究一种从可见光图像直接转换至红外仿真图像的方法,具有高效率、低成本、高精度的特点。本文的主要工作如下:(1)提出一种两级轻量多尺度信息融合生成对抗网络,采用“由粗到细”的两级网络结构,能够实现可见光与红外图像的特征转换:第一级使用大感受野生成网络,主要关注可见光-红外图像的全局结构特征;第二级采用小感受野的生成网络,重点处理可见光-红外图像的局部细节特征。(2)提出一种辅助任务与对抗网络相结合的方法,以提升特征转换的效果。因为可见光和红外图像的轮廓、语义等特征具有相通性,所以本文将语义分割的辅助任务加入到第一级网络,以获取更准确的全局结构信息;在第一级输出的“粗略”转换结果的基础上,第二级网络中增加了一个估计可见光反转图的辅助任务,补充转换图像的局部细节特征。(3)网络的改进与轻量化。为了提升算法的性能,提出了一种多尺度融合模块,能够通过融合不同感受野下的多尺度特征信息来提升整体网络性能;其次,为了降低模型整体参数量,对比分析了多种轻量卷积算法,最终在网络中采用了分组卷积和Ghost Module;最后,设计了一个位置偏移网络对已有输出结果做进一步的优化,在客观评价指标上略有提升。本文在公开数据集Multispectral Pedestrian Dataset(MPD)和室内近红外数据集上进行了实验。本文方法在多种客观指标和计算效率上优于其它先进算法,其中,在准确率Pδ<1.25指标上分别高于Pix2pix、X-Fork、Select GAN、SEAN、TMIF-GAN约8.41%、28.96%、11.73%、9.75%、1.14%。且本文方法转换结果的结构纹理特征都较正确,在主观可视化效果上优于其它先进算法。
其他文献
激光雷达能够采集场景的3D点云数据,可快速、准确的得到被测量物体的深度及重建目标物体的几何模型,而光学相机可对场景采集具有丰富细节的高清晰度2D可见光图像数据。激光点云与可见光图像的融合能够结合二者的优势,使只能表现物体轮廓的3D点云数据具有真实的颜色,大大提升可视性,在三维场景重建、环境交互等领域中发挥了重大作用,从而促进云景观、娱乐交互、自动驾驶以及无人设备等领域的发展。为了标定设备以及提高精
城市化进程的不断加快,使得城市用地越来越紧张,且随着大量工业化建筑的急剧增加,生态系统被破坏,环境恶化,能源短缺,城市公共空间缺失等问题随之出现,人类面临着严峻的生存危机。在此背景下,人们把追求生态环境效益作为城市设计的主要目标,巧妙的利用和顺应自然环境、与大自然密切联系着的覆土建筑逐渐成为推动生态建设的一股中坚力量。覆土建筑从古代的穴居到近代的窑洞,再到当代的公共建筑,其适用范围越来越大。因此,
通过分析唇部动态识别出说话者的表达内容是唇语识别的基本目的,其在人机交互领域是广受关注的研究项目。由于传统唇语识别模型具有速度慢,训练难度大的特点,在基于不同场景的唇语识别技术上需要大量的人工设计与经验性处理。所以本文选择基于深度学习建立唇语识别模型,但是在资源紧凑的设备上,大部分性能优异的卷积神经网络都无法展示自己的高效识别能力。因此,卷积神经网络的压缩与加速成为众多学者的热门研究课题,经过网络
水下鱼类识别在合理开发渔业资源,维持生态平衡等方面有大量的应用需求,开展水下鱼类识别的研究具有广阔前景。然而受限于鱼类数据集规模通常较小、鱼类特征复杂等因素,使用既有鱼类识别方法获得的结果往往存在识别精度不高、检测速度慢的问题。为解决上述鱼类识别挑战,本文对比分析了目标检测算法的网络架构,基于深度学习技术设计了两种方法,并通过对比实验验证了模型的有效性。本文的主要研究内容如下:针对如何提升水下鱼类
随着近年来伺服技术的不断改进,多轴同步系统的应用越来越广,充分考虑刚度、阻尼和质量等影响机械系统动态性能的因素,建立一个高精度的电火花龙门式机床多轴同步系统,对电火花机床等数控设备的开发与生产具有重要意义。面对目前多轴同步控制存在的同步性能差,易因外界扰动失去其稳定性等缺陷,本文针对电火花加工龙门式机床,根据其电加工摇动、平动以及Z轴多次往复的加工特点,对机床的X、Y、Z轴均采用双轴同步控制,通过
随着深度学习及人工智能的发展,唇语识别技术在计算机视觉及人机交互领域有着深厚的发展前景与应用需求。尤其是在利用自动唇部识别技术来改善听力障碍者和发音障碍者的社交互动方面,更是人工智能在医疗保健和康复中最有前途的应用之一。所谓唇语识别技术就是通过嘴唇视觉图像的动态变化来识别主要人物表达的内容。当前阶段,唇语识别技术主要停留在对算法以及计算机性能的研究上,很少将其真正的运用到实际生活场景中。因此,本研
地震勘探作为最有效的油气勘探方法之一,一般包括地震资料采集、地震资料处理、地震资料解释三个阶段。在实际采集工作中,存在由于地表起伏和低降速带的变化而造成的信号干扰,为此,首先需要对地震资料进行静校正。初至拾取是得到合理静校正结果的先决条件,它为静校正过程提供了进行后续计算所需的静校正量。现有初至拾取方法主要分为自动化和半自动化方法。一般而言,对于数据单一、噪声干扰小的资料,现有自动方法多数可以快速
人脸验证技术是近年来计算机视觉最为热门的研究方向,其被广泛应用于各种身份验证场景。目前对于人脸验证的研究已经发展到了较为成熟的阶段,现有算法在LFW人脸验证数据集上已经达到了99%的准确率。数据是深度学习算法的核心,取得这样优秀成绩的算法大部分都是基于上百万的人脸数据的前提下训练的。然而在实际应用中,并不是所有的场景都能够获取到大量的脸人图片训练样本的,例如人证比对和人脸亲属关系验证都是目前人脸验
尽管计算机断层扫描(Computed Tomography,CT)给医生诊断带来了所见即所得的支持,但是其高剂量可能带来的健康危害一直受到研究者高度关注。为此,使用低剂量来进行断层成像成为首选的解决办法。然而,放射剂量的降低往往会导致大量噪声的引入,进而影响医生的诊断。因而,如何在降低辐射剂量的同时有效地提高图像质量成为当前CT重建技术研究的重要挑战。一般CT重建涉及到两个域:投影域(Sinogr
近年来,工业机器人在工业生产中的应用越来越多,因此对工业机器人相关人才的需求呈爆炸式增长,导致了工业机器人领域的高端技能型人才变得供不应求,人才培养面临严峻挑战。本文基于Unity3D虚拟现实引擎和Qt5开发平台,结合职业教育相关理念,开发出一款基于示教器的工业机器人运动控制仿真系统,从使用者角度出发,实现其操作示教器以控制虚拟环境中机器人实时运动的体验真实感。首先,对ABB工业机器人进行运动学轨