基于注意力机制的图像描述研究

来源 :山西大学 | 被引量 : 0次 | 上传用户：dsq90

【摘要】

：

图像描述任务是一个跨学科的交叉研究问题,是深度学习技术在自然语言处理、语音识别、计算机视觉等领域取得突出成果后向多数据域拓展的探索。图像描述任务的流程是针对一幅

【作者】

：

陶云松

【出处】

：

山西大学

【发表日期】

：

2020年01期

【关键词】

：

双注意力机制知识增强双通道卷积神经网络长短期记忆网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像描述任务是一个跨学科的交叉研究问题,是深度学习技术在自然语言处理、语音识别、计算机视觉等领域取得突出成果后向多数据域拓展的探索。图像描述任务的流程是针对一幅输入图像自动生成描述类文字。经典图像描述网络侧重于全部图像的信息,对于精细实体会有所忽略。在此基础上将注意力机制应用在图像描述任务中,注意力机制可以对图像信息进行筛选、分配权重,为生成的每个词语提供与其最相关的图像特征。论文基于注意力机制和图像描述任务所做工作主要包括两方面:双向图像描述研究与双通道图像描述研究。提出了双向注意力机制图像描述网络结构,预测时同时参考上下文信息和改进的更具有逻辑性的双注意力机制对图像描述的影响。在大多数图像描述任务中每个单词的生成都依赖于图像全部信息和生成的上文信息,其中包括许多无关的图像信息,而且没有学习下文信息。为解决该问题,提出了双向双注意力网络,网络包含双向长短期记忆网络、双注意力机制和卷积神经网络。双向长短期记忆网络可以同时获得上文与下文信息,双注意力机制较普通注意力机制对图像的筛选更符合逻辑。双向双注意力网络首先采用卷积神经网络提取图像特征,然后将图像特征输入到含有注意力机制的双向长短期记忆网络中,同时获取前向和后向的图像显著信息与隐层状态,产生图像描述。结果表明,分别与只含有注意力机制和只含有双向循环神经网络相比,图像描述准确率获得了提高。提出了双通道图像描述网络结构,将知识强化方法引入含有注意力机制的图像描述网络中,并为其单独设计一个通道来计算对图像描述方法的参数影响。图像描述方法中在信息输入时只将图像作为输入,在端到端训练过程中,内部参数变化难以获取,很有可能造成错误。为进一步减小图像描述的不确定性,在图像描述任务中应用知识增强方法,即在输入端输入图像中的主题信息,将图像描述的范围确定化。提出的双通道图像描述架构包括主题通道与图像通道两部分。主题通道提取语义信息,将语义信息作为主题信息对图像信息进行知识增强。图像通道实现经典图像描述任务功能。与一般的图像描述方法进行对比,结果表明准确率获得了提高。

其他文献

平面手性二茂铁并[1,2-d]-2-吡咯烷酮衍生物的合成

平面手性二茂铁因其特殊的结构和稳定性,已被广泛的应用于多个领域。本文对钯催化的分子内不对称C(sp~2)-H键活化直接构筑平面手性二茂铁并[1,2-d]-2-吡咯烷酮类衍生物进行了

学位

钯催化C(sp~2)-H键活化平面手性二茂铁并[12-d]-2-吡咯烷酮亚磷酰胺配体

有选择地读经

自清末以来,科举废止和儒学的国家意识形态地位衰微后,“读经”一事便开始成为“问题”,尤其是“中小学生应否读经”以及“怎样读经”倍受人们的关注与热议。综观学界已有研

学位

折衷派中小学读经问题“有选择地读经”思想表达价值边界

工程化智能Kalman滤波方法

Kalman滤波是状态估计领域的一种基础性方法。在模型参数精准的假设下,Kalman滤波可以实现最小均方误差下的最优估计。但在大多数实际工程应用中,参数选择方法的局限性使得模

学位

性能分析不精准噪声协方差自适应Kalman滤波均方误差强跟踪滤波可信度

面向区域的笔式交互技术研究

传统笔式输入技术中引入笔压力、笔倾斜角和笔方位角等笔通道作为辅助输入通道是提高笔式交互效率的常见方法。然而随着交互界面逐渐趋于大屏化,操作目标分布范围的增大可能

学位

笔通道操作区域使用轮廓控制能力

278nm全固态激光系统光学薄膜的研制

激光作为20世纪最伟大的发明,已经成为国家综合实力的象征之一。由于紫外全固态激光器体积小、能量大、光束质量高以及工作稳定性好等优点,在国防、精密加工、医学和科学研究

学位

光学薄膜紫外固体激光器倍频分离光学损耗工艺优化

机载双通道SAR-GMTI地面运动目标检测技术研究

机载SAR-GMTI具有很强的实际应用价值,论文围绕机载双通道SAR-GMTI地面运动目标检测技术开展研究,选题具有重要的实用价值和一定的理论意义。本文的主要研究工作可概括如下:1

学位

杂波对消通道配准通道均衡地面动目标检测径向速度估计

磁控溅射制备碳包覆金属纳米粒子及氧还原反应催化和摩擦性能研究

碳包覆金属纳米粒子作为一种新型的功能复合材料,不仅可以保护内部金属粒子不发生物理和化学变化,还可以赋予材料新的性能,使其在催化、能量转换和存储、生物医学以及摩擦材

学位

碳包覆金属纳米粒子磁控溅射氧还原反应非贵金属催化剂润滑涂层

颅脑阻抗信号检测与脑血流参数分析方法研究

脑卒中是指颅内血管破损出血或血管内有血块,造成的以颅内出血或缺血性损伤症状为多数临床现象的病症。从病理机制及生理结构两方面来看,脑血流的参数发生异常以及脑血流的自

学位

颅脑模型脑血流脑卒中脑阻抗

TM2B和BC7的晶体结构与物性研究

维氏硬度值超过40 GPa的材料被称为超硬材料。超硬材料以其具有的优异的力学性质被广泛应用于切割、抛光和涂层保护等传统材料加工领域。金刚石和立方氮化硼作为传统的超硬材

学位

第一性原理晶体结构动力学稳定性超硬材料空间群

基于不规则曲线的着陆器视觉导航算法研究

近年来,各国纷纷开展了针对不同天体的着陆与采样返回任务,从而带动了基于特征匹配的视觉导航算法的发展。但是基于传统导航陆标的视觉导航算法具有难以进行绝对导航、特征较

学位

着陆器视觉导航不规则曲线位姿估计深空探测

基于注意力机制的图像描述研究

其他学术论文