基于自注意力机制的文本摘要自动生成研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:andalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动生成技术的目的是通过算法模型从源文本中炼出简练易读的摘要,以便实现从海量的文本数据中快速的获取到所需要的信息。文本摘要自动生成是一个比较难且具有挑战性的工作,目前针对长文本的摘要自动生成还没有公认的较好的方法。出于自注意力机制对序列中数据的长距离依赖关系的良好建模能力,以及可并行计算的特性,本文主要研究使用自注意力构建神经网络,并用于文本摘要自动生成任务中进行实验验证。本文的主要研究内容如下:(1)本文出了基于自注意力机制的LSAN(Lightweight Self-Attention Network)网络,这个网络的特点是网络的编码器和解码器分别只使用一个多头自注意力模块多次计算以进行编码和解码。该网络的主要优势是使用自注意力机制能够有效建立序列中元素的长距离依赖关系,并且网络可实现并行计算。另外,该网络的编码器和解码器中的内部自注意力模块之间权重共享,相较于其他自注意力神经网络,这个网络需要训练的参数更少,对计算资源要求更低。经过实验验证,LSAN网络相比于LSTM(Long Short-Term Memory)网络升了2.29个ROUGE-L分数,升了8.7%,并且网络具备可并行计算能力。(2)针对LSAN网络对输入序列中元素的顺序特征取不充分问题,本文出了LSAN-RPR(Lightweight Self-Attention Network with Relative Position Representation)网络,这个网络使用嵌入了序列中元素间的相对位置表示的自注意力,嵌入序列中元素的相对位置表示能够增强模型对序列中元素的顺序特征的取能力。实验结果表明,LSAN-RPR网络相比于LSAN网络升了1.2个ROUGE-L分数,进一步升了4.2%。(3)针对LSAN-RPR网络在用于文本摘要自动生成时无法处理词表中的未登录词无法生成问题,本文出了LPSAN(Lightweight Pointer Self-Attention Network)网络,这个网络在LSAN-RPR网络的基础上添加了一层注意力层。当网络的解码器解码出未登录词时,LPSAN网络能够根据这层注意力计算的结果从源输入文本中拷贝词作为生成结果。实验结果表明,本文出的LPSAN网络与其他新的网络相比是有效果升的,并且LPSAN网络的优势是具备并行化计算能力,模型训练效率更高。
其他文献
本文简要评述了各种废水生物处理过程中所遇到的毒物影响以及应采取的相应工程对策 ,并提出了今后的发展方向。
我国文物艺术品拍卖行业经过25年的发展历程,经历了从兴起到发展,再到高速发展的过程,从2013年开始,国内文物艺术品拍卖行业进入调整期,总体市场成交额下降,进入了平稳发展阶段,市场显得更加理性。2018年开始,我国国内经济形势下滑,文物艺术品拍卖行业大幅低落,深圳市G拍卖有限公司业绩持续下滑,面临亏损的发展现状,如何通过企业转型完成扭亏为盈,使企业健康可持续发展是企业迫在眉睫的问题。本论文通过PE
现如今在我国规模较大的城市中地铁的发展越来越快,地铁是我国不可或缺的基本建设工程之一,当前我国经济飞速发展,城镇化进程越来越快,在这样的当今经济形势下,地铁成为新时
德国的法学教育以其周期长、实务特色鲜明、培养的人才理论基础扎实著称。我国与德国同属大陆法系国家,以法典化为主要的立法特点。借鉴德国法学教育的优点对完善我国的法律
针对建筑工程造价预结算审核相关内容,做了简单的论述。开展工程造价预结算审核工作,要做好审核要点的把控,按照审核内容要求,细致完成预结算审核,提高工程造价预结算审核的
框构桥箱涵顶进技术,主要用于公路、城市道路与铁路或道路的平面交叉形式改建为立体交叉形式,既可以保证施工安全进行又不中断交通,以改善交通通行状况,完善道路功能,充分发
伴随着经济的发展和社会的进步,人们生活水平不断提升,对于房屋住宅的要求也随之增多,为了从全方面建立健全完整的工程管控结构,要在整合技术和质量监督水平的同时,实现房屋
摘 要:高校关工委有关心青年学生和青年教师的双重作用,而随着高校招生规模的扩大,高校青年教师也大幅增加,需要加强对青年教师的全方位指导和帮助,培养青年教师的尽快成长,这应成为高校关工委工作的重要任务之一,充分发挥其特殊作用。  关键词:高校关工委;培养;青年教师;作用  中图分类号:G641 文献标志码:A 文章编号:1002-2589(2013)30-0342-02  高校关心下一代工作起步于1