论文部分内容阅读
基于深度学习的自动目标检测是目前遥感图像解译的热点研究领域之一。由于深度网络通常规模较大,参数很多,当训练样本数量较少时容易出现过拟合现象;即使训练数据足够,在面对开放式复杂环境时,现有深度学习方法仍普遍存在泛化能力差的问题,因此在很多实际应用中,人工目标检测依然是主要的遥感图像判读方式。人类具有很强的学习能力,只需少量样本就能掌握如何识别某种目标,对环境变化具有较强的泛化能力,但传统的人工判读方式难以满足大数据量、强实时性的目标检测任务需求。脑机接口(Brain-Computer Interface,BCI)技术通过解译人类大脑皮层的脑电(Electroencephalography,EEG)信号实现大脑内部信息和外界环境的沟通,为提高人工判读的效能提供了一种新的技术途径。基于BCI的目标检测方法的性能主要取决于人的目标判读能力和EEG信号分类方法的性能两方面的因素,对人的视觉能力的强化训练可以有效提高其目标检测的效率和鲁棒性。人工检测模型和深度神经网络模型相比,在学习能力、泛化能力和检测效率上具有各自的优缺点,在目标检测领域两种目标检测模型在训练难度、学习能力、泛化能力、检测效率以及模型稳定性等方面仍缺少详细的量化对比分析。针对以上问题,本文设计了基于人工的目标检测实验与基于深度网络的目标检测实验,对实验结果进行了详细的对比分析,为目标检测模型的训练和相关问题的研究提供了依据。本文的主要研究成果概括如下:(1)本文选取了10名来自西安电子科技大学的健康、视力正常、惯用右手的学生参与实验,平均年龄23±2.7岁,从未进行目标检测实验及相关领域研究,且未接触过EEG相关实验。选取含2540幅遥感图像的VEDIA数据库作为实验数据集,其中包含自然光图像与红外图像各1270幅,各选取120幅图像作为测试集分别测试模型的学习能力与泛化能力,选取剩余1150幅自然光图像作为训练集。(2)本文选取Faster R-CNN作为深度学习目标检测实验网络,通过控制训练样本数量,来量化分析深度学习网络的目标检测性能。实验结果表明,深度网络具有极高的模型训练效率,对全样本数据的模型训练也仅需1小时15分21秒;深度网络的学习能力随训练样本数量的增加而随之增长,当训练样本数占比不足全样本26%时,其目标检测性能表现较差,而在训练样本数量达到全样本43%时,其目标检测性能开始进入饱和,提升幅值显著降低;深度网络的泛化能力则更依赖训练样本的数量,在训练样本数量达全样本61%时,其在红外场景下的目标检测性能才超越随机分类器,且逐渐进入饱和,泛化能力表现较差。(3)本文开展了基于大幅面图像的手工标记目标检测实验。训练实验为期二日:选取5幅自然光图像作为训练数据,每日进行实验训练与自我训练各一次;人类的疲劳性会导致其在大数据量任务下的性能显著下降,故将测试数据等量随机分为五份,在测试实验每日上午与下午分别进行自然光场景与红外场景实验。实验结果表明,该模式下人类样本学习能力强,10名被试对目标检测的平均准确率与召回率在测试实验中最终分别达93.92%与91.04%;而红外场景中人类的目标检测性能相对自然光场景的降幅与深度网络接近,但因其在自然光场景下具有较高的目标检测精度,故在红外场景中对目标的检测的平均准确率与召回率达79.25%与81.26%;该方式下被试的目标检测效率随实验进行而稳步提升,在实验中最快大幅面图像检测达12671ms,远低于深度网络。此外,被试在实验中表现出人类独有的自我学习能力,其目标检测性能随测试实验的进行不断提升。(4)本文开展了基于图像切片的BCI目标检测实验,以BCI结合快速序列视觉(Rapid Serial Visual Presentation,RSVP)实验范式的模式,对被试在图像识别过程中产生的特异性EEG进行解译,利用支持向量机(Support Vector Machine,SVM)构建被试特异性目标检测计算模型,实现对图像信息的快速解译。实验分为离线实验与在线实验,分别验证基于BCI的离线目标检测性能与在线实时目标检测性能。本文通过二阶段训练实验验证:按键与非按键结合的方式是更有效的EEG训练模式,且分类器的最佳训练比为训练集与测试集4:1。因EEG训练难度较大,本文将训练数据扩充为20幅自然光场景图,经切割后得到980幅小幅面刺激切片,经过训练后8名被试具备对目标切片的N170诱发潜力;测试实验时间设置与手工标记实验相同,实验中被试表现出与手工标记实验类似的自我学习能力,其目标检测性能随实验进行表现出不断提升现象。离线实验中被试的学习能力相比手工标记实验表现较低,而相对深度网络模型被试的目标召回能力较强,但因RSVP序列下干扰源的辨识难度较大,其对目标捕捉的精准度表现较低;该模式下在红外场景中的目标检测性能相对自然光场景在三种实验中降幅最低,具有最优的泛化能力;而在线实验中,本文实现了对目标的实时检测,但该模式下数据的预处理较为简单,缺少眼电与肌电彻底去除、去基线漂移、全数据重参考等步骤,导致其目标检测精度相对离线实验表现较低。本文在验证了人类的快速视觉目标检测能力,实验表明随切片呈现频率加快,被试的目标检测性能会出现小幅下降,研究者可以根据实际需求牺牲部分检测精度来提升目标检测效率。(5)本文对基于深度网络、基于手工标记、基于BCI技术的三种目标检测实验结果进行对比分析,通过对模型训练时间与难度、目标检测的准确率与召回率、目标检测效率等参数针对不同实际应用场景进行详细的分析及对比,提供直观的量化对比分析数据,研究结果为相关问题的模型训练的研究与应用提供了依据。