基于Faster R-CNN和视觉注意的图像描述生成研究

来源 :天津职业技术师范大学 | 被引量 : 0次 | 上传用户:zerotx01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能领域,图像描述任务的目标是将给定的一张图像输入机器中,机器能够生成符合人类表达的自然、流畅的语言。这对人们来说是非常简单的,但是对于机器而言却是极其困难,它不仅仅需要机器能够准确识别图像中所包含的目标,还需要捕捉目标的属性以及目标间的动作关系。因此图像描述任务一直也是计算机视觉和自然语言处理领域的研究热点。近年来,受机器翻译任务的启发,视觉注意力机制已经被广泛地应用在图像描述任务中。然而,对于背景复杂的图像,大多数模型生成的描述语句质量不高,甚至出现与图像内容毫不相关的问题。另外大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器可能不需要关注图像中的任何视觉信息就可以生成非视觉单词,比如“the”和“of”等非语义信息的单词在图像中并没有与之对应的区域,解码器只需要依赖于语言模型就可以生成非语义单词。最后传统图像描述任务中常常会面临曝光偏差问题,同时大多数模型在训练时都是采用交叉熵损失,而在测试时采用自然语言处理领域中的评价机制来衡量模型,出现度量不一致的问题。本文主要的研究内容如下:1、设计了一种结合自底向上和自上而下注意机制的图像描述模型。在自底向上注意模型中采用Faster R-CNN提取图像中的一些显著区域,每个区域都用一个相同维度特征向量来表示。然后在长短时记忆网络中引入自上而下的注意力机制来生成图像特征的注意力权重,在每一个时间步长都通过视觉注意力关注图像特征来生成描述语句。最后在MSCOCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量。2、设计了一种自适应注意图像描述模型。首先介绍了一种新的空间注意模型来提取图像特征。然后在长短时记忆网络中引入一个视觉监督信号,在每个时间步长,可以自动决定何时依赖于视觉信号,何时仅依赖于语言模型。最后在Flickr30K数据集和MSCOCO数据集上进行验证,实验结果表明该模型在BLEU、ROUGE、METEOR和CIDEr四种评价指标中均获得了最高分数,与结合自底向上和自上而下注意机制的图像描述模型相比,该模型在四种评价指标中的分数提高了3%~5%。3、研究了一种自批判序列训练方法。直接将不可微的度量作为目标函数来训练深度的端到端模型,测试时采用推理算法来标准化奖励,而不是通过估计基准来标准化奖励。实验结果表明在测试时使用自批判序列训练方法和贪婪解码直接优化CIDEr是非常有效的,最终在MSCOCO数据集上将模型的CIDEr分数从1.149提升到1.277。
其他文献
随着社会发展地下水工程增多,全球范围内的核废料地质处置、石油开采及二氧化碳地质封存安全问题关注度日益提升,基岩裂隙水运移研究现已是水文地质学的重视课题。交叉裂隙作
随着社会的进步,工业化进程的逐步加快,高分子材料为人们带来了许多便利同时,也为生态环境造成了很大的危害。传统的不可降解的材料由于其高昂的后处理费用和对环境的影响逐步被可降解的聚酯类高分子材料所取代。比如丙交酯、己内酯等化合物在金属配合物的催化下,开环聚合的研究在近几年国内外取得了很大的成就。其中有机镁、铝、锌化合物无论在催化活性还是可控聚合方面都具有明显的优势,受到广大科研工作者的关注。但是,与烯
近20年来多个中微子震荡实验证实了中微子具有非零质量,但是其质量的物理起源(马约拉纳或狄拉克)仍然未为人所知。目前验证中微子质量起源最直接的方法是验证无中微子双贝塔衰
在现代社会中,数字图像作为承载信息的重要媒介,越来越与文字、语音一道成为在生活、工作及学习中进行沟通交流所不可或缺的构成成分,而且由于多媒体技术的快速发展,使得数字图像在生活、科研、工业及其他领域中的应用越来越广泛。然而,在图像的采集、压缩、传输及存储过程中常会引入各种失真,使得图像质量无法达到预期要求,从而影响了后续的处理和使用,如图像增强、人脸识别或超分辨率等。近几十年来,旨在以反映人类所感知
放射性碘在环境中的高毒性和高迁移性会对人体健康造成严重危害。碘酸盐是环境中碘的主要种类之一,是工业消毒的重要副产品。还建议作为盐的添加剂来纠正碘缺乏。从公共卫生和环境保护的角度来看,从水溶液中去除IO_3-具有重要意义。铝是一种流行的吸附材料。金属涂层对某些特定污染物的吸附能力有所提高。在大颗粒上镀铜。Cu-Al_2O_3、Fe-Al_2O_3和Cu-Al_2O_3对I0_3-的吸附需要70小时才
光纤激光器因其构造廉价,集成度高,输出方向方便可控等特点,成为了理想的超短脉冲源,极大的促进了超快光学的发展应用。本论文主要着眼于被动锁模光纤激光器中特殊超短脉冲的
生长在不同环境下的植物叶片表面蜡质成分通常不同。本文提取了沿海和内陆的灌木及乔木共八种植物蜡质,用气质联用(GC-MS)分析仪分析了叶片表面蜡质的化学成分和组成;选择合
在1989年,混沌控制的研究开始出现,然而真正具有跨时代意义的是在1990年美国科学家Ott等人提出的参数微扰控制混沌的方法,通过控制奇怪吸引子中的不稳定的周期轨道而取得成功
健康问题是人类长期关注的重点,在正常生理活动以及多种疾病中蛋白酶的调控必不可少。例如,许多蛋白酶在癌症发展中与肿瘤细胞生长,血管生成,侵袭和转移密切相关。鉴定蛋白酶
随着我国常规油气开采难度不断加大,同时对油气资源的需求也在不断增加.对国外油气资源的加重依赖使得包括油砂在内的非常规油气越来越受到重视。我国油砂资源主要分布在包括