论文部分内容阅读
图像描述任务是一个跨学科的交叉研究问题,是深度学习技术在自然语言处理、语音识别、计算机视觉等领域取得突出成果后向多数据域拓展的探索。图像描述任务的流程是针对一幅输入图像自动生成描述类文字。经典图像描述网络侧重于全部图像的信息,对于精细实体会有所忽略。在此基础上将注意力机制应用在图像描述任务中,注意力机制可以对图像信息进行筛选、分配权重,为生成的每个词语提供与其最相关的图像特征。论文基于注意力机制和图像描述任务所做工作主要包括两方面:双向图像描述研究与双通道图像描述研究。提出了双向注意力机制图像描述网络结构,预测时同时参考上下文信息和改进的更具有逻辑性的双注意力机制对图像描述的影响。在大多数图像描述任务中每个单词的生成都依赖于图像全部信息和生成的上文信息,其中包括许多无关的图像信息,而且没有学习下文信息。为解决该问题,提出了双向双注意力网络,网络包含双向长短期记忆网络、双注意力机制和卷积神经网络。双向长短期记忆网络可以同时获得上文与下文信息,双注意力机制较普通注意力机制对图像的筛选更符合逻辑。双向双注意力网络首先采用卷积神经网络提取图像特征,然后将图像特征输入到含有注意力机制的双向长短期记忆网络中,同时获取前向和后向的图像显著信息与隐层状态,产生图像描述。结果表明,分别与只含有注意力机制和只含有双向循环神经网络相比,图像描述准确率获得了提高。提出了双通道图像描述网络结构,将知识强化方法引入含有注意力机制的图像描述网络中,并为其单独设计一个通道来计算对图像描述方法的参数影响。图像描述方法中在信息输入时只将图像作为输入,在端到端训练过程中,内部参数变化难以获取,很有可能造成错误。为进一步减小图像描述的不确定性,在图像描述任务中应用知识增强方法,即在输入端输入图像中的主题信息,将图像描述的范围确定化。提出的双通道图像描述架构包括主题通道与图像通道两部分。主题通道提取语义信息,将语义信息作为主题信息对图像信息进行知识增强。图像通道实现经典图像描述任务功能。与一般的图像描述方法进行对比,结果表明准确率获得了提高。