【摘 要】
:
图像描述是计算机视觉和自然语言处理两领域交叉的研究课题,是人工智能中的研究热点,与图像分类、目标检测等图像理解任务不同,图像描述不仅要识别出图像中的目标,而且要理解目标之间的关系,并使用自然语言正确地表达出来,因此图像描述具有很大挑战性。图像描述搭建了一座从视觉通往自然语言的桥梁,在图像检索、人机交互以及智能监控等领域具有广阔的应用前景。本文从注意力机制、解码器和训练方法三方面改进基于深度学习的图
论文部分内容阅读
图像描述是计算机视觉和自然语言处理两领域交叉的研究课题,是人工智能中的研究热点,与图像分类、目标检测等图像理解任务不同,图像描述不仅要识别出图像中的目标,而且要理解目标之间的关系,并使用自然语言正确地表达出来,因此图像描述具有很大挑战性。图像描述搭建了一座从视觉通往自然语言的桥梁,在图像检索、人机交互以及智能监控等领域具有广阔的应用前景。本文从注意力机制、解码器和训练方法三方面改进基于深度学习的图像描述模型以提高生成描述的效果,主要研究内容如下:1.提出了基于注意力融合的图像描述模型。直接划分图像得到的空间注意力会导致注意力机制不能准确地选取图像中目标对应的特征。为了解决这一问题,本文提出使用Faster R-CNN作为编码器来检测图像中目标的准确位置,来提高空间注意力的准确性,与此同时利用检测出目标的名称属性,将名称属性作为高层语义注意力与空间注意力来同时指导单词序列的生成。在MSCOCO数据集上的实验结果表明基于注意力融合的图像描述模型的性能超过了基于空间注意力的图像描述模型,而且优于多数主流图像描述模型,说明了基于Faster R-CNN的注意力融合的图像描述模型的有效性。2.使用卷积神经网络作为解码器提高基于注意力融合的图像描述模型的训练速度。循环神经网络无法并行计算会导致模型的训练速度过慢,而且在处理长序列时存在的信息丢失问题。为了循环神经网络存在的问题,提高模型的训练速度,本文使用掩膜卷积神经网络结合线性门控单元作为基于注意力融合的图像描述模型的解码器,卷积神经网络可以并行处理数据,计算更加高效,其层级结构能够更好地捕获和处理句子中复杂的关系。在MSCOCO数据集上的实验结果表明卷积神经网络解码模型比循环神经网络解码器模型的训练速度提高了1.5倍以上,生成描述的效果相近,说明了基于卷积神经网络的解码器的有效性,能够提高模型的训练速度。3.使用强化学习方法进一步优化基于注意力融合的图像描述模型。使用交叉熵损失训练模型的方法存在曝光偏差问题和衡量标准不一致问题,会分别导致生成的描述与图像内容不符和在训练时无法充分优化评价指标。为了解决交叉熵训练方法存在的问题,进一步提高基于注意力融合的图像描述模型生成描述的效果,本文使用强化学习方法训练模型,训练时解码器的输入和测试时保持一致,将评价指标作为奖励函数,先使用交叉熵损失训练模型至稳定状态,再使用REINFORCE算法直接优化评价指标对模型进一步训练,在MSCOCO数据集上的实验结果表明使用强化学习方法可以显著地提高模型的在各评价指标上的得分,这说明了基于强化学习训练方法可以进一步提高模型的性能。
其他文献
近年来,随着社会的不断发展,人们对于各类自然资源的需求急剧增大,而陆地资源产量已经逐渐无法满足这样的需求,因此各国将目光投向了海洋资源。在对海洋资源进行勘探开发的过程中,水面无人艇因具有机动灵活、自主性高及可拓展性强等优点获得了广泛的应用。目前,进一步提高系统的自主性是水面无人艇的发展趋势,为此我们必须在通信、智能决策以及轨迹跟踪控制等方面取得突破。其中,精准可靠的轨迹跟踪控制能够保证艇体沿期望轨
随着我国经济转型的深入,社会风险逐步上升,风险频发的问题开始凸显。支付系统作为金融支付的大动脉,在国家的社会主义建设中发挥着重大作用。人民银行作为支付系统的运维和管理部门,在支付系统的风险管理方面,有着先进的技术和丰富的经验。然而,支付系统的风险管理尚未成熟,经济的发展与技术的进步同时带来了前所未有的挑战。总体看来,支付系统的风险管理有很大的提升空间和突破发展的可能性。在此背景下,本文从人民银行支
随着电子政务的发展与推广,越来越多的政务文件以电子文档的形式存在。政务大数据与人工智能结合的工作方式一定程度上提高了工作效率,但在保密定密工作特殊领域中,因为制度不完善等问题,保密定密方式太落后,容易造成涉密信息泄露的问题。定密是保密工作的源头任务,因此科学严谨的定密方式也决定了保密定密工作质量,体现了对于国家安全的重要性。传统的定密方式大多是人工基于关键词以及规则定密完成,这也造成了定密方式不严
人工智能的出现使人类的生产生活进入了智能化的时代。机器人取代了劳动力,可以替代人类完成危险繁重的工作;自动驾驶的出现可以让人类无需自己驾车;美图,修图软件也早已随处
光伏行业的不断发展和市场需求的增加,促进光伏组件制造企业规模急速扩张。激烈的竞争态势对光伏制造企业库存量的控制提出了更高的要求,采用合适的方法分类产品,对各类产品进行销售量预测,计算安全库存,优化供应链下的库存管理组织架构在此起着关键作用。本文立足于AB光伏组件研发制造公司的光伏组件成品库存管理展开研究。首先揭示高库存现状,其次分析原因,接着从产品分类和销量预测入手,探讨针对不同产品需求情况进行深
双桨双舵在船舶中的应用还没有完全普及。目前,主要应用在军用船舶和特种船舶上,民用的较少。由于其优良的特性得到了船舶行业的认可,各国学者纷纷对双桨双舵船舶的性能进行深入研究。双桨双舵船舶由两个主螺旋桨为船舶提供纵向的推力,由双舵为船舶提供转向力矩,还可以通过两个主螺旋的差速运动为船舶提供转向力矩。相对于单桨单舵船舶,双桨双舵船舶具有船速快、回转性能好、可操纵性强、浅水区性能好等优点。所以,双桨双舵船
近年来,随着5G移动通信、物联网、云计算、人工智能等新兴业务的不断发展,人们对互联网流量的需求呈指数型增长,这对光纤通信系统提出了更高要求。为了追求更高的传输速率,QP
大规模多输入多输出(Massive Multiple-Input Multiple-Output,Massive MIMO)技术通过在基站部署大量天线以挖掘毫米波通信中的空间维度资源。Massive MIMO技术与混合波束成形技术的结合可以大幅提升频谱效率与能量利用率,并且支持多数据流的传输,成为了毫米波通信中的关键技术。针对不同的混合波束成形架构,已经存在一些对应的混合波束成形设计方案。然而,现
科技保险能够很好地降低科技型企业在进行技术创新和产品研发过程中所产生风险,国家科技部、保监会等相关政府部门提出了许多扶持性政策大力推进科技保险行业的发展,但是科技保险保费往往过高,导致科技型企业难投保的问题。因此本文提出新型保险产品“保险+股权”,一方面该产品承保范围为研发或创新是否成功,为高科技企业研发保驾护航,另一方面它模拟“投贷联动”模式,将保费与股权相结合,不仅帮助企业锁定风险解决投保难困
大多数文献报道表明,含二氢噻吩或四氢噻吩的多环硫吲哚类化合物可能具有一定的药用价值,对类似的天然产物的药用和理化性质已有较为深入的研究,但是相关的合成方法却很少有人报道。本文结合前人的工作经验,使用廉价的K_2S和S_8,实现了二氢噻吩和四氢噻吩的多环硫吲哚的合成,拓展了多环含硫吲哚的合成方法。本文主要分为两部分:(一)本文报道了一种以炔基吲哚为底物,通过K_2S和绿色硫源S_8的反应生成S_3·