基于注意力机制的图像描述研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:dsq90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务是一个跨学科的交叉研究问题,是深度学习技术在自然语言处理、语音识别、计算机视觉等领域取得突出成果后向多数据域拓展的探索。图像描述任务的流程是针对一幅输入图像自动生成描述类文字。经典图像描述网络侧重于全部图像的信息,对于精细实体会有所忽略。在此基础上将注意力机制应用在图像描述任务中,注意力机制可以对图像信息进行筛选、分配权重,为生成的每个词语提供与其最相关的图像特征。论文基于注意力机制和图像描述任务所做工作主要包括两方面:双向图像描述研究与双通道图像描述研究。提出了双向注意力机制图像描述网络结构,预测时同时参考上下文信息和改进的更具有逻辑性的双注意力机制对图像描述的影响。在大多数图像描述任务中每个单词的生成都依赖于图像全部信息和生成的上文信息,其中包括许多无关的图像信息,而且没有学习下文信息。为解决该问题,提出了双向双注意力网络,网络包含双向长短期记忆网络、双注意力机制和卷积神经网络。双向长短期记忆网络可以同时获得上文与下文信息,双注意力机制较普通注意力机制对图像的筛选更符合逻辑。双向双注意力网络首先采用卷积神经网络提取图像特征,然后将图像特征输入到含有注意力机制的双向长短期记忆网络中,同时获取前向和后向的图像显著信息与隐层状态,产生图像描述。结果表明,分别与只含有注意力机制和只含有双向循环神经网络相比,图像描述准确率获得了提高。提出了双通道图像描述网络结构,将知识强化方法引入含有注意力机制的图像描述网络中,并为其单独设计一个通道来计算对图像描述方法的参数影响。图像描述方法中在信息输入时只将图像作为输入,在端到端训练过程中,内部参数变化难以获取,很有可能造成错误。为进一步减小图像描述的不确定性,在图像描述任务中应用知识增强方法,即在输入端输入图像中的主题信息,将图像描述的范围确定化。提出的双通道图像描述架构包括主题通道与图像通道两部分。主题通道提取语义信息,将语义信息作为主题信息对图像信息进行知识增强。图像通道实现经典图像描述任务功能。与一般的图像描述方法进行对比,结果表明准确率获得了提高。
其他文献
平面手性二茂铁因其特殊的结构和稳定性,已被广泛的应用于多个领域。本文对钯催化的分子内不对称C(sp~2)-H键活化直接构筑平面手性二茂铁并[1,2-d]-2-吡咯烷酮类衍生物进行了
自清末以来,科举废止和儒学的国家意识形态地位衰微后,“读经”一事便开始成为“问题”,尤其是“中小学生应否读经”以及“怎样读经”倍受人们的关注与热议。综观学界已有研
Kalman滤波是状态估计领域的一种基础性方法。在模型参数精准的假设下,Kalman滤波可以实现最小均方误差下的最优估计。但在大多数实际工程应用中,参数选择方法的局限性使得模
传统笔式输入技术中引入笔压力、笔倾斜角和笔方位角等笔通道作为辅助输入通道是提高笔式交互效率的常见方法。然而随着交互界面逐渐趋于大屏化,操作目标分布范围的增大可能
激光作为20世纪最伟大的发明,已经成为国家综合实力的象征之一。由于紫外全固态激光器体积小、能量大、光束质量高以及工作稳定性好等优点,在国防、精密加工、医学和科学研究
机载SAR-GMTI具有很强的实际应用价值,论文围绕机载双通道SAR-GMTI地面运动目标检测技术开展研究,选题具有重要的实用价值和一定的理论意义。本文的主要研究工作可概括如下:1
碳包覆金属纳米粒子作为一种新型的功能复合材料,不仅可以保护内部金属粒子不发生物理和化学变化,还可以赋予材料新的性能,使其在催化、能量转换和存储、生物医学以及摩擦材
脑卒中是指颅内血管破损出血或血管内有血块,造成的以颅内出血或缺血性损伤症状为多数临床现象的病症。从病理机制及生理结构两方面来看,脑血流的参数发生异常以及脑血流的自
维氏硬度值超过40 GPa的材料被称为超硬材料。超硬材料以其具有的优异的力学性质被广泛应用于切割、抛光和涂层保护等传统材料加工领域。金刚石和立方氮化硼作为传统的超硬材
近年来,各国纷纷开展了针对不同天体的着陆与采样返回任务,从而带动了基于特征匹配的视觉导航算法的发展。但是基于传统导航陆标的视觉导航算法具有难以进行绝对导航、特征较