论文部分内容阅读
随着互联网的飞速发展,人们接触到的文本数据越来越多。摘要是人们解决阅读数量过大,但时间不足的一个好方法。自动文本摘要旨在用计算机代替人工,将长文本概括成简洁的摘要,减少人工成本,增加摘要的生成数量。现有的很多文本摘要技术还是基于抽取式,摘要生成简单,不能够完全表达文章含义。深度学习的进步,让自动文本摘要研究有了新的方向。目前,基于Seq2Seq框架的神经网络模型已经成为生成式文本摘要研究的基本框架。本文在此基础上,构建了多个生成式自动文本摘要模型,按照字典个数分为单字典自动文本摘要模型和多字典自动文本摘要模型,主要研究内容如下:1)本文基于堆叠BiLSTM构建了融合复制机制和覆盖机制的单字典自动文本模型。该模型采用堆叠BiLSTM进行信息抽取,提高模型理解语义的能力。模型融合复制机制和覆盖机制,增加文本摘要的连贯性和可读性,减少文本摘要的未登录词问题和词语重复问题。2)在单字典自动文本摘要模型研究的基础上,为简化模型结构,提高模型效率,本文基于堆叠BiLSTM构建了融合覆盖机制的多字典自动文本摘要模型。3)本文将集成学习加入实验。由于不同编码器理解语义不同,采用不同编码器进行模型训练,通过对多个模型进行集成,增加模型理解语义的多样性,提高实验预测结果的准确性和实验的泛化能力。论文采用ROUGE指标,在哈尔滨工业大学智能计算研究中心构建的大规模短文本中文摘要数据集LCSTS2.0上进行实验分析。实验结果证明,与融合复制机制和覆盖机制的单字典自动文本摘要模型相比,融合覆盖机制的多字典自动文本摘要模型能够提升10%的ROUGE指标,基于该模型进行模型集成可以提升5%左右的ROUGE指标。