基于类脑并行交互融合的深度学习分类模型

来源 :东华大学 | 被引量 : 0次 | 上传用户:tshanyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着卷积神经网络(Convolutional Neural Network, CNN)的诞生与发展,图像分类精度得到了前所未有的提升。众所周知的是 CNN的灵感来源于生物学家 Hubel 和 Wiesel 提出的大脑视觉感知层级模型。本文借鉴该思路,希望通过大脑视觉认知机制启发来改进CNN,使得图像分类性能更好。由此展开了对脑机制与CNN结构特征改进的相关研究。
  脑神经科学领域研究表明,人类大脑在进行视觉活动时,并行的背侧流与腹侧流会进行信息交互。而在人工神经网络领域,并行交互的思想被用于许多神经网络的设计,但大多数交互作用发生在并行网络的末尾,网络中部特征的利用率低。基于此,本文第一部分提出了一种并行交互模型(Parallel Interaction Model, PIM)。PIM的特征提取器由两个并行的CNN组成,其中一个是连接到分类器的主特征提取器,另一个是辅助特征提取器,可以与主特征提取器进行多阶段特征交互,提高了网络中部特征的利用率。通过使用提出的PIM,本文改进了两种不同规模的CNN,并在Cifar-10,Aircrafts100和Flower-17数据集上验证了模型效果。实验结果表明,PIM可显著提升模型分类性能。最后,本文可视化了交互前后特征图,用于验证并行交互过程有提升特征质量的作用。与其他模型相比,PIM特征的交互与融合可发生在神经网络的中间,且可根据数据集的特征、原始网络的结构自定义双流交互的位置和频次,以正确控制网络大小。
  同时,传统的简单细胞叠复杂细胞的大脑层级视觉模型存在一定的问题,即无法全面表征视觉信息中相对位置等信息。脑神经科学领域提出了一种能体现位置和尺度不变性的模型来解决该问题,该模型对应到计算机视觉领域就是双线性模型。受此启发,本文第二部分提出了一种并行特征扩增模型(Parallel Feature Expansion Model, PFEM)。该模型基于并行 CNN 结构,对并行 CNN 提取的两组特征执行两种双线性变换,将原有的两个基本特征扩增为六个,并对扩增后的特征进行融合,之后送入到全连接层。 本文在 Cifar-10 , Mnist , Mini-ImageNet 三个数据集上进行了实验,结果证明该模型具有提升图像分类精度的能力。同时,本文使用激活值最大化方法对网络进行了可视化分析,证明该模型通过特征扩增的方式可以更好表征图像的高级语义信息。为进一步提升分类性能,我们将基于特征的注意力机制添加到PFEM以校正CNN特征图的激活值,从而过滤部分冗余特征信息,该部分在Cifar-10数据集上进行了实验,结果证明加入注意力机制能够提高模型的分类精度。
  本文第三部分借鉴特征工程中特征交叉的概念提出了一种新的CNN 特征交互方式。在特征工程中,特征交叉方式有三种:内积、外积、笛卡儿积。将内积与笛卡尔积用于CNN特征交互皆会造成特征维数膨胀,而使用外积进行特征交互可以保证交互前后特征维数不变。由于使用外积进行特征交互的便利性和可嵌入性,所以本文提出了一种基于外积的特征群交互方式(Feature Group Interaction, FGI),并使用FGI改进ResNet-18。该部分在Cifar-10数据集上进行了实验,结果证明利用FGI进行特征交互可以有效提升特征表征能力,从而提高网络分类精度。
  最后,本文总结了研究内容,归纳了课题创新点,提出了论文可进一步深入挖掘的方向。
其他文献
三维目标的配准与识别是计算机视觉与模式识别领域中的研究热点,已广泛应用于遥感测绘、机器人、军事安防、虚拟现实等领域。三维目标配准旨在对齐两个或多个不同视角的目标三维数据,从而完成姿态校正得到具有更大视场范围或完整的目标三维数据;三维目标识别的目的是基于三维目标模型在复杂场景中识别出模型目标并确定目标的位置和朝向。在三维目标配准识别问题中,点云局部特征描述扮演着至关重要的角色,其目的是充分描述三维局
学位
下肢助力外骨骼机器人是一种可穿戴式设备,它的出现使得穿戴者增强在负重行走、托举搬运和边检巡逻的运动技能,其作用主要在穿戴者展现自身运动动作时,无阻碍增强穿戴者的耐力、提高穿戴者的负重能力、保护穿戴者运动肢体,进而,提高穿戴者的工作效率或战斗力。下肢助力外骨骼机器人可以在人体运动的同时有机融合人体的下肢和上身部分,这种可穿戴设备通常由两条拟人化机械腿、相应的支撑连接设备以及配套的软硬件设施等组成。本
随着不同分辨率的移动设备数量的快速增长,如何将视频适配于多样的移动设备成为一项重要的研究课题。视频缩放技术将视频分辨率缩放至目标分辨率或长宽比以适应不同的播放设备。传统的视频缩放方法,例如均匀缩放或裁剪视频内容,通常会造成视频失真或内容损失,从而效果较差。基于内容感知的视频缩放方法,在改变视频分辨率的同时,能够保持视频中关键对象的形状,并协调视频帧之间的时间一致性和空间一致性,从而产生更少的视频伪
相比于传统的PID(Proportional-integral-derivative, PID)控制方法,先进PID控制方法继承PID结构简单、易于实现和适应性强等优点的同时还具备先进控制策略的优良性能,近年来受到了学术界和工业界越来越多的关注。如何针对复杂控制系统设计先进PID控制器获得更优的控制性能具有重要的理论意义和工程应用价值,已成为控制领域的研究热点之一。一方面,进化算法为先进PID控制
学位