基于深度学习的生成式自动摘要技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zikao0606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,文本信息呈指数式增长,人们在文本信息处理和阅读中花费大量时间和精力。自动摘要技术是一种能够从文档中获取重要信息的方法,它能缓解信息爆炸时代给人们带来的时间精力问题。的句子组成进行区分,可以分为抽取式自动摘要和生成式自动摘要。抽取式方法通过评估原文中句子的重要度,从原文中提取重要度高的句子组成摘要,而生成式方法则使用了一系列自然语言处理技术,生成更加简明干练的句子构成摘要。与抽取式自动摘要相比,生成式自动摘要更符合人类撰写摘要的习惯,有着简洁、灵活、多样性等特点。近些年来,深度学习技术的出现推动了生成式自动摘要技术蓬勃发展,当前主流的生成式自动摘要技术主要使用了Seq2Seq框架,通过Seq2Seq框架将文档表示成向量的形式,再由文档向量解码得到生成的摘要。本文对生成式自动摘要关键技术进行研究,主要分为以下三个方面展开:(1)基于深度学习的单文档生成式摘要研究。使用了基于Seq2Seq框架的生成式摘要模型ABS(Attention Based Summarization)进行实验,比较了不同神经单元以及正反序输入对模型的影响,在模型中加入了批标准化技术,加快了模型的收敛速度,引入了指针网络(Pointer Network)、覆盖率机制,并将位置编码同词向量特征融合,提高了自动摘要模型效果,探究了集束搜索(Beam Search)对解码结果的影响。(2)基于深度学习的多文档生成式摘要研究。为了解决多文档摘要语料匮乏的问题,分析了单文档和多文档摘要之间的联系,将迁移学习技术引入多文档生成式摘要研究任务中。使用了基于特征的迁移学习方法,通过特征映射的方法,分别从关键词和关键句的两个特征维度出发,使用单文档摘要作为源领域,对单文档和多文档进行特征映射,缓解了多文档生成式摘要数据匮乏的问题。系统的设计与实现。介绍了网站系统的总体框架与设计,并与文档摘要算法模块进行整合,实现了文档摘要的Web展示系统,证明了自动摘要的实用性和有效性。
其他文献
对个人非营业性住房开征房产税成为我国房产税改革的靶向,此改革构成影响民生等众多领域稳定的法学问题,公平原则是否得以落实成为检验其具体开展情况的重要指标。对于公平原
阐述了国际上通用的车身轻量化评价方法,即轻量化系数法及新提出的车身密度法,并通过实车计算分析,给出常见车型的车身轻量化系数数值范围,介于2.8-5.6之间;对应的用车身密度
在借鉴国外高校本科教学改革相关对策的基础上,我们以尊重学生的主体地位和创新意识为前提,通过积极调动学生的学习积极性和创设良好的学习氛围,并辅之以相应的教学策略,进一步改
桥下空间属于城市道路与交通设施用地,在保证城市道路基本的交通通行功能和绿化功能的基础上,合理利用桥下空间成为当下城市建设的迫切需求。目前我国桥下空间利用的相关规划仍
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊