基于深度学习的图像摘要生成方法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wangbohan1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉是人类感知的主要感官形态,语言是人类与世界交流的最有力的工具。而图像摘要生成技术是计算机视觉和自然语言处理相结合的产物。简单地说,就是给计算机输入一张图片,可以根据图像内容生成一段流利通顺的自然语言描述。图像摘要生成技术在搜索引擎、盲人辅听和智能机器人等领域都取得了良好的应用效果,有着十分可观的应用前景。生成技术主要包括基于模板和基于检索的两种方法,但都存在非常明显的缺陷。最近几年,基于深度学习的方法在图像摘要生成技术中取得了卓越的成就。本文提出了一个全新的图像摘要生成方法,是在已有模型的基础上,针对主要的不足之处对模型进行了改进,所做工作如下:本文基于经典的编码器-解码器框架改进了一种图像摘要生成方法,得到了改进后的AADL(Adaptive Attention Double-LSTM)模型。在图像编码器部分,使用的是卷积神经网络(Convolutional Neural Network,CNN),并加入了属性预测层,这样可以把图像特征转换成高等级的语义表达后,再输入到解码器中,从而提高了模型性能。在语言解码器部分,首先使用了双层长短期记忆网络(Long Short-Term Memory,LSTM),解决了单层网络表达能力较差的缺点,然后引入了自适应注意力机制,作用是解码器在生成描述语句时可以自适应地选择利用图像信息,使得最后得到的语句更加准确。通过仿真实验证明了改进后的模型在MSCOCO数据集上评价得分高于其他主流的图像摘要生成方法。本文引入强化学习对改进后的AADL模型进行优化,AADL模型虽然评价得分已经高于其他主流的图像摘要生成方法,但仍存在问题:第一个是“Exposure bias”问题,第二个是训练时用的目标函数和测试时进行评价的指标不匹配问题。为了解决上述两个问题,本文使用强化学习算法,将改进后的模型作为预训练模型,然后利用策略梯度算法直接优化CIDEr评价指标对模型进行再训练,得到最终的模型。仿真实验证明,强化学习的使用使得模型性能有了进一步的提升。在最后,本文加入了基于改进Seq2Seq模型的英汉翻译。因为中文和英文在语法上的差异性,图像摘要的中文生成难度更大,而且绝大多数的训练数据集都是英文的,如果个人制作中文数据集,那么工作量会非常大。针对这一问题,本文在Seq2Seq模型的基础上进行改进,利用改进后的模型来构建英汉翻译模型,将上一部分生成的图像英文摘要作为输入,得到翻译后的汉语,从而实现了图像的中文摘要。仿真实验证明,本文训练得到的英汉翻译模型在测试集上取得了不错的效果。
其他文献
激光雷达是一种通过探测目标的散射光特性来获取目标相关信息的雷达系统。与微波雷达相比,激光雷达具有分辨率高、抗有源干扰能力强、体积小质量轻等优点,被广泛运用于机器人、自动驾驶、无人机、气象研究、城市三维建模、大气环境监测等领域。随着物联网和人工智能技术的兴起,激光雷达在民用消费级市场方面发展迅速,尤其是自动驾驶领域,使得激光雷达成为研究自动驾驶的核心技术之一。国内在激光测距以及激光雷达方面的研究相对
近年我国经济的巨大发展、居民收入的增加客观上也造就了我国居民对体育培训及服务产业巨大的市场需求;然而一方面是整体产业的快速发展,另一方面却是我国体育产业沿袭下来的
伴随着改革开放的发展,我国的经济呈现出日新月异的发展,在2020年我国将全面建成小康社会,人民的经济水平大幅度提高,与之而来的是越来越多的人民开始关注自身的健康水平,从最初的人身保险、意外险等险种的购买。逐渐提升到对健康保险产品的购买需求中。同时,由于医疗水平的提升以及居民生活水平的提高,我国人口老龄化逐渐加重,工作强度的增加以及环境污染也导致人民的身体水平下降,疾病触发几率增加,也激发了健康保险
财政收入是衡量一个地区经济实力发展实力及程度的重要性指标,是政府履行公共职能的主要资金来源途径,是提供公共服务和实施公共政策的主要资金。在我国,社会需求伴随着经济
全过程工程咨询服务项目业主与咨询方需要形成相互依存的合作共赢关系,通过组织间合作提升业主的项目管理能力,实现项目价值增值。但由于双方人员具有跨组织、跨职能、跨专业的特点,合作效率容易受到知识差异及认知偏差的影响。因此,组织间知识共享具有重要作用,而何种控制机制能够更好地管理业主与咨询方的组织间关系从而促进知识共享、各控制机制选择的前置影响因素及其交互作用尚待探索验证。有鉴于此,研究从全过程工程咨询
近年来,国内外反恐形势日趋严峻,安检问题成为各国社会普遍关注的问题。采用毫米波安检成像称为当前研究的热点问题。在安检时,采用主动式毫米波成像快速安检,能够在毫无察觉的情况下,对行人进行快速安检,可以适用在机场,地铁,火车站等多种场合,提高安检效率和质量。需要注意的是:毫米波是频率范围在30GHz-300GHz的微波,波长范围为1mm-10mm;因其波长短,行人的很小位置移动将引起回波相位的较大变化
青年是祖国的未来和希望,大学生的价值取向将决定整个国家乃至整个民族的未来发展方向,然而新的历史方位下意识形态领域斗争更加深刻复杂,以价值观引领为核心的软实力竞争愈演愈烈,这就要求大学生思想政治教育要主动求变以适应新时代。笔者认为航空航天精神作为民族精神的重要组成,既具历史继承又具时代发扬,是大学生思想政治教育优秀的教育资源,航空航天精神融入大学生思想政治教育将会显著提升高校思想政治教育的针对性、实
近年来,随着无人机相关技术的成熟,飞行自组网的概念被提出,飞行自组网是继移动自组网与车辆网之后的新的自组网,被广泛应用于各种军事与民用场景中。运动模型是飞行自组网研究的一个重要方面,运动模型用于模拟真实无人机节点的运动和实际的飞行自组网环境,是对飞行自组网其它后续研究的基础。群智能经过数十年的丰富和完善,如今已经成为优化理论中不可或缺的一部分。群智能的基础理论与飞行自组网的需要有着诸多的相似之处,
图书定位功能在大规模图书典藏管理中起着至关重要的作用,尤其在图书发生错架摆放的情况下。传统图书定位方法一方面人力成本高昂,效率低下,另一方面需要对图书馆进行大规模改造,部署复杂。面对该现状,近年有研究人员提出一种先进的图书定位方法,将RFID与移动机器人技术相结合,移动机器人代替人力进行沿书架扫描,RFID用于定位图书。然而他们大多数使用超高频RFID技术定位图书,无法适用于已经部署高频RFID系
随着我国城市规模的不断扩大,城市经济发展和人口扩张对土地的利用类型、植被、水文、气候等方面产生了显著的影响。生态承载力是评价社会经济发展对资源、能源环境影响干扰程度的重要标准,是城市发展过程中重要的限制性条件,也是对城市可持续发展提出的定量化要求。天目山-怀玉山区水源涵养与生物多样性保护重要区主要涉及浙江省的杭州、湖州、衢州,江西省的上饶、景德镇、九江,以及安徽省的宣城、黄山、池州。该地区具有重要