基于深度学习的图像描述方法

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:mc76759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是机器将一张图像自动翻译为一句人类能够理解的句子,它是一个涉及计算机视觉、机器学习和自然语言处理的基本问题。图像描述问题是近年来计算机视觉领域研究的热点问题,系统不仅要识别图像中的物体,还要理解物体的属性、位置以及图像中物体之间的关系,然后将这些信息通过自然语言处理转换为具有一定语法结构的句子。图像描述在帮助有视觉障碍的人减轻视觉障碍、婴儿早期教育、图像自动标注和图像检索方面有重大意义。随着深度学习的发展,利用深度学习解决图像描述问题是目前使用最广泛且最有效的方法。本文提出的图像描述模型是基于深度学习的方法,分别提出了基于GoogLeNet和双层GRU的图像描述模型、融合空间变换网络和残差网络的双层GRU图像描述模型。本文研究内容安排如下:(1)介绍图像描述工作的背景和意义,详细介绍了图像描述的国内外研究现状、主要方法以及图像描述工作的作用和意义。(2)介绍了图像描述中的主要技术,包括卷积神经网络、循环神经网络的原理和发展历程,并介绍了模型训练过程中经常使用的优化算法和防止过拟合技术。(3)本文提出基于GoogLeNet和双层GRU的图像描述模型(简称G-GRUs),在“编码”阶段使用GoogLeNet提取图像特征,在“解码”阶段使用结构简单、计算复杂度低的GRU网络模型,并使用双层GRU网络构建语言模型,双层GRU网络结构对单词序列有更好的记忆能力,提高模型生成句子的准确率和表达效果;同时在训练阶段使用AdamW优化算法,与其他优化算法相比,AdamW优化算法具有高计算速率、收敛速度快和提高模型性能等特点,实验证明G-GRUs模型训练速度快,模型训练时间短,并且生成的句子准确度也有明显的提高。(4)本文提出融合空间变换网络和残差网络的双层GRU图像描述模型,是在G-GRUs模型的基础上进行优化和改进,将图像编码阶段的GoogLeNet优化为空间变换网络和残差网络相结合的方式,图像解码阶段仍采用双层GRU构建语言生成模型。图像编码阶段,先将输入图像送入空间变换网络中,使得空间变换网络可以直接对输入图像进行仿射变换,使得图像在输入模型的最初阶段就能有效地学习图像的平移、缩放、旋转等空间不变性,同时克服了图像在卷积过程中发生形变的问题,提高整个模型的空间鲁棒性;然后将空间变换网络的输出送入到网络层数更深的残差网络中进行图像的特征提取,使得提取到的图像特征更加准确化和形象化,然后将提取到的图像特征送到双层GRU结构中生成图像对应的描述。实验表明使用融合空间变换网络和残差网络的双层GRU图像描述模型在各个评价指标上均高于G-GRUs模型,并且生成的图像标题形象化和多样化,更贴合人类的语言习惯。
其他文献
显著目标检测研究的是根据人类的视觉注意机制,从场景中迅速检测出吸引人眼球的区域乃至整个物体。当前,显著目标检测成为一种可行的预处理技术被广泛应用在计算机视觉领域的
目的:本研究目的是研究中医气功八段锦对高血压患者血压变化的影响观察,确定八段锦气功是否对高血压患者有一定的调整作用。方法:将符合标准的60例高血压患者,半随机平均分为两组,每组30例,分别为气功练功组,空白对照组。气功练功组,通过互联网连接的远程教育与监督下进行操作与练功,完全学习并练习了八段锦气功,练功时间共30天,同时记录与观察患者的血压变化情况,记录练习前后的收缩压和舒张压。共由3个老师进行
多模态媒体数据是指从多个方面描述一个场景或一个事物中所包含的信息,包括文本、图像、视频、音频等多种媒体形式,每一种形式即为一种模态。在互联网飞速发展的大浪潮下,信
随着社会的进步和经济的发展,人们的生活水平不断提高。在消费者需求逐渐多元化和个性化的今天,在互联网与信息化技术蓬勃发展的背景下,传统的营销模式及策略愈发显得不够满
近几年,我国生猪产业快速发展,生猪现货市场中生猪年产量、年存出栏量、以及年进出口量均居全球首位,规模庞大。2018年8月,非洲猪瘟大范围爆发,我国生猪市场受到了严重的影响。到目前为止,我国依然受非洲猪瘟的影响,生猪价格持续剧烈波动,现货市场情况越来越复杂,生猪产业所面临的风险加剧。猪肉是我国居民的传统肉食,在我国食品结构中占有重要地位;生猪产业作为我国的重要基础产业之一,既能够解决农民的就业与收入
目的比较经过长途运输的郊区采血点采集的全血与未经长途运输的市区采血点采集的全血分离制备后的溶血率。方法2012年10月~2013年9月来自郊区采血点和市区采血点的全血,由市
会议
互联网金融新兴借贷模式——P2P网络借贷,由于其参与门槛低、交易手续方便以及无需担保抵押等优点,受到个人以及中小企业的青睐,并在我国得到快速发展。但在快速发展的同时,行业竞争愈发激烈加上整个行业监管细则暂时性缺失,涌现出大批问题平台,其中问题平台产生的主要原因之一是行业存在较高的借款人违约风险。借款人违约风险发生主要是受到借贷双方信息不对称性影响,为缓解借贷双方信息不对称性,本文将从非结构化信息入
船闸作为内河重要的水利枢纽,对保障航道通航效率及安全有着重要作用。然而随着航运量的增加,船闸人字门启闭频繁,加上门体两侧上下游水位差的压力作用以及动水载荷的作用,使得门体表面不断的发生应力的集中与释放,经过长此以往的积累,门体表面会出现裂纹等破坏门体结构的因素,对门体健康和使用寿命产生影响,威胁通航安全。然而由于船闸检修周期较长,无法实时判断门体的健康状况,因此建立应变检测专家系统,及时有效的发现
多智能体系统作为分布式人工智能的重要分支,伴随着计算机和网络通信技术的快速发展而得到广泛发展和应用。近十多年中,多智能体的协同控制成为多智能体系统研究中的热点问题
同辈群体对个人的成长和发展起着重要的作用,中学阶段是青少年人格塑造、价值观树立和个人成长的关键时期,同伴关系的融洽程度影响个体的亲社会行为和社会化进程。由于身体症状、心理状态等各方面原因,多动症中学生群体的同辈融入问题更为突出,因此多动症中学生同辈融入研究是各领域研究的重点课题。首先,本研究从生态系统视角入手,采用文献研究法和参与式观察法,从微观、中观、宏观等方面,综合分析多动症中学生同辈融入层面
学位