论文部分内容阅读
随着互联网技术的发展,文本信息呈指数式增长,人们在文本信息处理和阅读中花费大量时间和精力。自动摘要技术是一种能够从文档中获取重要信息的方法,它能缓解信息爆炸时代给人们带来的时间精力问题。的句子组成进行区分,可以分为抽取式自动摘要和生成式自动摘要。抽取式方法通过评估原文中句子的重要度,从原文中提取重要度高的句子组成摘要,而生成式方法则使用了一系列自然语言处理技术,生成更加简明干练的句子构成摘要。与抽取式自动摘要相比,生成式自动摘要更符合人类撰写摘要的习惯,有着简洁、灵活、多样性等特点。近些年来,深度学习技术的出现推动了生成式自动摘要技术蓬勃发展,当前主流的生成式自动摘要技术主要使用了Seq2Seq框架,通过Seq2Seq框架将文档表示成向量的形式,再由文档向量解码得到生成的摘要。本文对生成式自动摘要关键技术进行研究,主要分为以下三个方面展开:(1)基于深度学习的单文档生成式摘要研究。使用了基于Seq2Seq框架的生成式摘要模型ABS(Attention Based Summarization)进行实验,比较了不同神经单元以及正反序输入对模型的影响,在模型中加入了批标准化技术,加快了模型的收敛速度,引入了指针网络(Pointer Network)、覆盖率机制,并将位置编码同词向量特征融合,提高了自动摘要模型效果,探究了集束搜索(Beam Search)对解码结果的影响。(2)基于深度学习的多文档生成式摘要研究。为了解决多文档摘要语料匮乏的问题,分析了单文档和多文档摘要之间的联系,将迁移学习技术引入多文档生成式摘要研究任务中。使用了基于特征的迁移学习方法,通过特征映射的方法,分别从关键词和关键句的两个特征维度出发,使用单文档摘要作为源领域,对单文档和多文档进行特征映射,缓解了多文档生成式摘要数据匮乏的问题。系统的设计与实现。介绍了网站系统的总体框架与设计,并与文档摘要算法模块进行整合,实现了文档摘要的Web展示系统,证明了自动摘要的实用性和有效性。