论文部分内容阅读
大数据时代的到来,让网络新闻、社交评论等文本数据爆发式增长,为了吸引更多的用户观看,出现一批“标题党”。故意渲染夸大的标题与内容严重不符,误导欺骗读者,增加了其获取关键信息的时间成本。因此,将内容浓缩,让大段文章生成言简意赅的摘要,成为具有挑战性的研究任务。随着深度学习技术的发展,文本摘要生成研究也借助深度神经网络模型有了突破性的进展。目前主要的研究大都基于序列到序列模型,但这种模型仍存在以下不足:(1)需要大量标注数据,数据获取成本高;(2)模型简单,编码器难以掌握全局的语义信息;(3)文本转化为词向量输入模型,单词之间相对孤立,难以提取文本的局部特征。本文首先对基于序列到序列模型的中文文本摘要任务进行了一些基础实验,包括探究分词方式和几种不同词向量对模型的影响,再在此基础上对上述存在的问题进行了相应改进。对于问题(1),本文研究了几种自然语言处理任务相关的数据增强算法,并提出一种适用于文本摘要生成任务的非核心词简易数据增强方法(Non-Core Word Easy Data Augmentation,NCW-EDA),并与回译法进行了对比实验。在数据样本不足的情况下,通过NCW-EDA方法对数据进行扩增后,摘要生成的效果有较大提升,与在完整数据集上训练的模型达到的效果相近,能够有效缓解数据不足对模型带来的影响。对于问题(2),为了加强编码器对全局语义信息的掌握,本文尝试了两种不同的方法。首先是提出了一种预编码器结构。在编码器进行编码前,用类似结构的预编码器对原始文本进行一次预编码,获取原始文本的大体语义信息,提升编码器对全局语义信息的掌控能力。另外提出了一种自编码器结构,通过在训练阶段添加一个自编码器将真实摘要进行编码,将摘要的编码向量和原始文本的编码向量的相似度作为一个目标函数加入最终的目标函数中,使编码器能够通过去逼近真实摘要来加强获取关键信息的能力。对于问题(3),本文分别对词向量和编码器的隐藏状态向量加入一层范围卷积层,建立单词或字之间的局部联系,使得每个向量不仅能够表示当前位置词的信息,还能获取一部分邻近词的信息,能够更好地提取文本的语义特征。最后通过组合上述几种改进模块得到的最优组合模型在LCSTS(Large Scale Chinese Short Text Summarization)数据集上与对比模型中分数最高的模型相比,在ROUGE-1、ROUGE-2和ROUGE-L三项评价指标上分别提高了7.59%、12.02%和7.54%。