水下低光图像鱼类目标检测与识别算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zhongguorenaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国家对海洋资源的日益重视,运用现代海洋信息技术,建立现代海洋产业体系已成为国家的重要举措之一。鱼类作为海洋生物资源中分布最为广泛和最具代表性的生物,也成为国内外学者的重要研究对象。在海洋鱼类调查研究中,鱼类的检测、识别是基础性的环节。然而,受水下特殊成像环境的限制,水下图像存在对比度低、颜色失真、光照不均等质量退化现象,导致图像细节丢失,自动化分析困难;此外,鱼类形态各异,尺寸不一,种类繁多且差异细微,给检测和识别带来了严峻的挑战。为了克服上述困难,恢复水下图像质量,实现低质水下图像中鱼类的精准、稳定的检测和识别,本文主要研究成果如下:(1)针对水下图像中鱼类细节模糊、小目标难以检测等问题,提出了一种基于难样本挖掘的水下鱼类目标检测算法,通过由粗到精的两阶段检测策略,有效实现了召回率与精确率的平衡;为降低鱼类形变对检测造成的影响,提出一种双路Faster RCNN检测网络,创新性地引入距离变换图像,将轮廓信息作为辅助特征,从而实现难样本的检测。通过在本文构建的数据集上进行实验,验证了算法的有效性;(2)针对水下低光图像存在的照明不足、光照不均、对比度低等问题,提出了一种新颖的面向水下低光图像增强的光照解析模型。受朗伯-比尔定律的启发,提出光照解析网络(Illumination Parsing Network,IP-Net)实现对水下光照衰减的估计;针对缺乏成对训练数据的问题,提出了一种基于色彩迁移的自参考成对图像生成方法,较好地模拟了水下实际光照条件。最后通过在真实图像上进行大量的对比实验及目标检测实验,验证了本文方法能在增强视觉感知效果的同时提高下游视觉任务性能;(3)针对鱼类识别中存在的类间相似度高、类内差异性大的问题,提出一种基于双线性网络的细粒度鱼类识别算法。通过双线性操作融合两路特征,以同时捕获不同语义特征之间的关系,得到更为有效的特征表示;此外,为进一步扩大特征空间中的类间差异性,提高类内紧凑性,本文引入三元组损失,协同交叉熵分类损失一同优化网络,提升了双线性网络的识别准确率。
其他文献
视频目标分割是指将视频序列每一帧中感兴趣的目标区域从背景中分离出来。其中,无监督视频目标分割需要在未给定任何目标信息的前提下,将特定前景目标进行分离,因此成为当前的研究热点和难点。另外,视频序列的复杂性和多变性对无监督视频目标分割的准确性提出了更高的要求。因此,如何充分发掘并有效利用视频序列中丰富的信息以实现更为准确的无监督视频目标分割具有非常重要的研究价值。本文重点研究了如何充分利用视频序列中的
前列腺癌多年居于全球男性癌症发病率的首位,随着人口老龄化进程的加快以及经济的发展,中国男性前列腺癌患者数量呈现快速增长的趋势。动态对比增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)是一种能够反映组织生理学信息的非侵入性的影像学检测手段,通过药代动力学模型的拟合可获得与组织生理特性相关的量化参数,可用于良恶性
软件可靠性指的是软件产品在规定条件下和规定时间内不引起系统失效的能力。软件可靠性预测即基于测试和运行维护期间观察和收集到的失效数据对未来软件可靠性进行预测。软件可靠性预测模型是软件可靠性预测的基础,通过对软件失效过程进行建模从而预测软件失效行为,保障软件可靠程度。随着人工智能技术的发展,深度学习模型在软件可靠性预测领域已经得到了初步应用。其中,长短期记忆(Long Short-Term Memor
CPU是电子信息技术的核心,而基于RISC-V指令集架构的CPU芯片设计越来越受到人们的重视,对该指令集架构的深入研究已然成为目前CPU芯片行业的热点,本论文主要研究了RISC-V指令集架构的结构特点,并基于SMIC 0.18 um CMOS工艺设计了一款基于RISC-V指令集的CPU芯片。本论文对CPU的系统结构进行了概述,对CPU设计中的关键部分,即流水线以及转移预测进行着重介绍,并对目前最为
推荐系统是当前缓解信息过载问题的主要手段之一。它为用户筛选掉大量冗余、不相关的数据并从中挑选出有价值的信息,这不仅大幅改善了用户体验,同时也显著地提升了企业的商业收益。协同过滤是搭建个性化推荐系统的关键技术,它着重于通过集体智慧和经验来推断用户对物品的偏好。该技术面临的主要挑战是“用户-物品”交互数据稀疏的问题。现如今社交媒体迅速发展,社交网络中流通着大量与用户兴趣偏好相关的信息。因此,用户社交链
随着互联网技术的发展,图像已经成为人们信息交流的重要媒介。图像中的文本具有精准的语义,准确的识别可以对机器视觉等领域的人工智能应用产生重要影响。尽管光学字符识别技术的研究已经取得了很大的进展,但在现实应用场景中很多情况下是比较复杂的文本图像,例如自动驾驶、盲人导航、票据自动化处理等。这些场景图像中的文本往往具有较强的不规范性,包括丰富的布局排列、干扰性的背景,手写体文本随意的书写风格、字符之间的粘
在当今的互联网时代,信息技术已经成为推动企业乃至社会发展的关键因素。数据中心作为信息技术的重要载体,其发展和创新的速度也在不断加快。面对高速发展所带来的竞争与挑战,如何以业务为导向,以技术为依托,构建数据中心一体化运维架构,实现优势资源的整合,正在成为行业发展的方向。在这过程中,知识愈发成为组织取得竞争优势的关键因素。如何管理好组织中的知识资源,构建完善的知识体系,平衡组织中的知识供应,加快组织中
癫痫是一种大脑神经细胞混乱放电而导致的一种疾病,发作时通常伴有呕吐、抽搐、短暂性失神等症状,会严重影响患者的正常生活。研究发现癫痫患者在静息态下大脑活动也会表现出异常。随着脑电/磁信号在大脑活动状态研究和神经疾病辅助分析方面应用的日渐推广,以及脑磁相比脑电具有更突出的优势,利用癫痫患者的静息态脑磁信号及高频振荡对病灶进行定位,有助于辅助临床诊断。论文基于静息状态的脑磁信号,分别从高频振荡检测和源定
随着移动通信技术的飞速发展,频谱资源的需求呈现指数级增长,猛增的频谱需求与有限频谱资源的冲突业已成为无线电发展的瓶颈。与这一瓶颈相对应的是,传统的频谱分配方式存在大量的频谱资源浪费,这就形成了频谱资源需求急剧增加与频谱资源利用率低的基本矛盾。认知无线电是有效地解决这一基本矛盾的核心技术,其首要任务是频谱感知,但是在频谱感知过程中亟待解决安全的问题,尤其是以拜占庭攻击为代表的各类攻击行为。针对认知无
文本分类是自然语言处理中一个经典的任务,旨在为给定的文本打上特定的标签,依据标签的数量可将此任务分为单标签文本分类任务和多标签文本分类任务(允许一篇文档同时存在多个标签)。现阶段,文本分类已经有了广泛的应用包括问答、垃圾邮件检测、情感识别、新闻分类等等。为了使文本分类获得更好的效果,一个好的文本表示便尤为重要。针对当前文档,一个好的表示应该同时涵盖整篇文档的全局上下文信息以及局部判别性特征,因为前