论文部分内容阅读
近年来互联网的快速发展,人们每天都能接触到大量的文本,信息爆炸式增长产生了海量的数据。面对这些海量的文本数据,如何快速的浏览和选择所需要的内容,有效的节约阅读时间已成为一个迫在眉睫的问题。文本的摘要和标题能反映出文本的主要内容,让读者进行有效的筛选和阅读,自动生成文本摘要和标题在信息过载中具有非常重要的用途。随着深度学习的发展,生成式的自动文本标题模型被广泛使用。生成式方法依赖理解文本语义,对语义信息进行表达,从而生成标题。但由于机器本身不具备人类的语言能力去全面理解文本并生成概括核心内容的标题,因此,生成式的方法充满挑战性。序列到序列模型在多个自然语言处理任务上被广泛使用,同时也为文本标题生成任务提供了新的思路。基于序列到序列的标题生成模型要编码文本的语义信息,理解文本的语义关系,生成符合原文中心内容的标题。本文针对序列到序列模型开展英文文本标题生成的研究,主要研究工作如下:(1)基于句子级LSTM编码的标题生成。序列到序列的标题生成模型在编码阶段是对文本进行上下文语义信息表示,本文提出一种基于句子级LSTM编码的文本表示方法,并行对文本中每个单词编码表示,构建全局的句子级状态以及建模每个单词的子状态,通过循环步骤对单词之间的局部状态和整体文本的全局状态进行信息交换。编码得到语义表示后使用混合指针网络的解码器生成标题。在相关数据集上的实验结果显示模型理解文本的有效性。(2)融合特征和多头注意力机制的标题生成。在生成式的模型中添加词汇语言特征,将词汇的语言特征向量与原文词向量融合,提高生成标题与文本的语义相关性。同时在注意力部分使用多头注意力机制,从不同表征的子空间获取更多层面的特征,让模型充分获得上下文信息,最后将多头注意力分布集成到指针网络作为解码器生成标题。实验结果表明,模型能够提高生成标题的质量。