基于图神经网络的目标检测与识别算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gaolei000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图神经网络(Graph Neural Network)是一种作用于图状数据结构上的深度神经网络。本质上,图神经网络通过了图节点之间的信息传递,从而捕捉到全局图的结构信息。其中,每个节点在其卷积层中聚合了来自邻居节点的特征。本文将图神经网络方法应用于计算机视觉领域中的目标检测与识别任务之中。该任务要求定位特定图片中物体的位置,并通过识别算法给出物品的类别标签。目前,常用的目标检测与识别模型往往基于卷积神经网络(Convolutional Neural Network),该类模型大多仅能通过分析图片底层的像素信息进行物体的定位与分类识别。而基于图神经网络的方法能够依靠图片的空间位置或者语义信息对物体进行检测。该类算法的好处在于通过构建图状数据结构(如空间图,知识图谱,超像素图),模型能够获得额外特征。而这些特征又能辅助提高目标检测与识别的精准度。因此,本文提出了多个算法并深度讨论了图神经网络在目标检测与识别上的应用。首先,本文提出了基于图像空间信息的图神经网络算法。该网络通过依靠图像自身的物体空间关系,对物体的类型以及具体位置进行合理的判断。模型采用了双通道结构,以U-NET为像素模块提取图像像素信息,并以图卷积网络提取图像空间关系。最后通过一个特殊的门控机制将两个特征相互融合得到最终的输出。其次,本文提出了基于超像素的残差图神经网络算法。该算法通过聚类图像中的像素点,将大规模的像素数据转化为几十个超像素块实现了任务规模的压缩。模型通过超像素块的位置与像素关系构建超像素图。并采用了基于残差的图神经网络结构,解决了图神经网络的过平滑问题。实现了对目标的检测任务。本文还提出了基于知识图谱的门控图神经网络算法。通过知识图谱进行语义级别的推理,实现了对难以识别的物体的精准判别。模型还通过研究知识图谱上点的相似度,提出了语义一致性模型,该模型能够更为精准的判定图像是否适合进行知识推理,以此进一步提高模型的识别性能。最后,本文基于COCO数据集以及VG数据集设计了多个对比实验。数据表明,基于图像空间信息和基于知识图谱的目标检测与识别模型在识别性能上较基线模型有大幅的提升。而基于超像素的目标检测与识别模型也能有效减少模型的浮点运算量,减小模型的复杂程度。
其他文献
安全外包计算技术作为云计算的一种应用方式,已经得到了个人和企业的关注。外包计算就是一些硬件条件有限的客户端将需要大量计算资源的任务外包给云服务器,以达到节约自身资源的目的。虽然外包计算在大数据时代拥有广阔的应用前景,但云服务器的不可靠行为是制约外包计算发展的重要因素。如何保证客户端外包数据的安全是设计方案时关注的重点之一。此外,方案的正确性、高效性和结果可验证性也是外包计算的基本要求。大规模矩阵乘
随着人工智能技术的成熟,语义分割方法也迎来了飞速发展的机会。语义分割作为一种像素级的预测任务,为了获得较高的性能,需要耗费大量的计算资源进行训练学习。然而随着自动驾驶和移动机器人需求的日益增长,在分割精度和分割速率之间进行平衡显得尤为重要。鉴于此,本文以自动驾驶领域作为应用场景对语义分割展开研究,兼顾分割精度和分割速率,实现快速准确的语义分割。本文主要研究内容如下:(1)针对不同尺寸特征图之间像素
近年来,在线社交网络已成为信息传播最为重要的网络平台。推特作为境外分享信息的主要社交平台,拥有海量的活跃用户与大量的推文发布,充斥着海量隐私信息并暴露于公众视野,导致了社交网络中极高的隐私泄露风险。因此,研究社交网络中的隐私信息传播具有重要意义。本文针对推特中包含隐私信息的推文,构建了隐私信息传播的级联图,对隐私信息的传播特征开展分析,在此基础上提出了隐私信息传播模型的构建方法。本文的主要贡献如下
深度学习的发展提高了计算机处理图像的能力,拓展了计算机视觉的应用。同时,基于视觉任务的端到端的自动驾驶技术也在不断地发展。但是,目前深度学习在端到端的自动驾驶领域应用较浅,基于深度学习技术构建的决策模型不能很好的完成自动驾驶任务。因此,研究基于深度学习的决策模型具有重要的理论意义与应用价值。本文基于深度学习技术,设计了一个可以根据道路图像预测出驾驶动作的模型,并在模拟器上进行了实验仿真测试。最后,
对话系统作为自然语言处理的重要研究分支,在近几年持续受到研究者的关注。海量数据的出现和深度学习的快速发展为对话系统的建模提供了重要支持。对话系统一般分为任务型和检索型,任务型对话系统需要从对话中对用户意图进行识别并完成特定任务;检索型对话系统需要根据多轮历史对话,结合深度匹配模型,从回复模板库中检索出与当前对话最为匹配的回复候选项。检索型对话系统的回复检索性能,容易受到数据集质量的影响,并且当前的
网络技术的发展,促进了社会经济的进步,同时也带来了新的安全风险,入侵检测是维护网络安全的关键技术之一。入侵检测可以看作分类问题,可从分类的角度进行研究。本文研究工作如下:(1)针对入侵检测中已知类别的检测问题,设计了权重森林算法。权重森林属于集成学习,从多样性与准确性的角度设计。权重森林多样性体现在数据样本扰动、每颗树只由一个属性生成和权重矩阵的更新方式;权重森林准确性通过激活函数与全连接层保证。
随着深度学习的快速发展,人工智能已经越来越多的出现在人们的社会生活中,也越来越多地应用到以嵌入式终端为载体的安全关键领域,比如无人驾驶汽车、人脸识别等。卷积神经网络在这些安全关键应用中发挥着重要作用。但部署卷积神经网络的硬件可能由于外界的环境因素发生异常,出现电压异常导致跳变等情况,这会使得模型的权重出现比特翻转错误,这种权重错误可能导致模型的精度下降,最严重的情况可能会导致模型瘫痪。因此,本文选
在产品生产过程中,由于制造工艺简单、操作不当等因素,导致产品表面缺陷难以规避。若未能及时处理这些缺陷,将对产品的外观和功能产生重大影响。传统的人工检测依靠肉眼识别缺陷,存在速度慢、成本高的缺点。伴随图像处理、模式识别等技术的发展,基于机器视觉的自动检测已充分应用于产品质检环节。但是,针对产品表面存在的微小缺陷,机器视觉检测难以充分提取微小缺陷的特征信息,漏检现象时常发生。由于深度学习拥有自主学习特
脊柱分割是脊柱图像定量分析中的关键组成部分,一个好的椎骨分割结果有助于计算机医学辅助系统的使用,并为后续脊柱医学任务打下坚实的基础,因此研究脊柱椎骨的分割方法具有重要意义。然而传统的医学图像分割技术已经不能满足当前医学发展需求,正逐渐转向使用基于数据驱动的分割方法,其中深度学习技术就是方法之一。它从大量的医学图像中提取关键信息,最终得到准确度高于其他分割方法的结果,目前已成为主流医学图像分割方法。
在图像识别技术领域中,摄像头老化和复杂多变的外界环境等原因使得采集的图像中会参杂大量的噪声,从而导致图像识别准确率不高。然而神经网络和忆阻器的有效结合不仅可以大大改变人工智能领域的发展,也可以在有限的数据集下很好地抑制图像中含有的噪声。本文首先将忆阻器和卷积神经网络结合起来进行车辆标志图像识别,设计了一种全新的数字图像预处理算法;为了模拟真实场景中的噪声,然后基于VLR-40数据集构造四类新的数据