基于深度学习的问题生成方法研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jinr0op2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的课题是自然语言处理领域中,基于深度学习的无结构文本自动问题生成任务。相较于自然语言处理其他分支的任务而言,这个领域是一项更具挑战性的生成式任务。自动问题生成致力于从包含上下文的句子中提出问题,这其中包含问什么,怎么问这两个基本方面。相较而言,怎么问是本文更加关心的问题,毕竟问什么这个问题,可以有一个宽泛的基线。近年来关于神经网络为基础的方案都采用基于序列到序列的模型,使用答案和上下文句子作为输入,然后预测一个相关的问题作为结果。这样的模型有以下两方面的问题,首先生成问题的句子和问题的类型之间的匹配不尽如人意,另一方面如果模型复制上下文的词语离答案位置太远会导致语句的语义上存在瑕疵。针对以上问题,本文研究了一系列基于序列到序列的自动问题生成模型。尝试了包括多特征的输入算法模型的融合,并且在此基础上融合集成学习的优点来改进模型的表现,通过集成的方法得到更好的生成效果。问题生成领域方面新兴的研究越来越多,集成了越来越多的输入特征,以生成更复杂的高水平问题为目标,这些趋势表明问题生成已经变得越来越成熟。通过分析国内外对该任务的研究现状,本文研究的内容主要包括以下部分:(1)本论文提出了基于深度学习的多个模型进行融合的方法以解决问题生成语法不合理的问题。主要做法是对基于序列模型的问题生成进行改进,对多个模型分别进行训练,再通过融合的步骤进行打分,得到多模型中较好的结果。基于多模型融合的方法进行问题生成,在编码器的实现上采用基于门控循环单元(Gated Recurrent Unit,GRU)和自注意力两种方式。对两种模型同时训练,最后通过模型融合模块对两个模型的输出进行决策优化。(2)提出了根据GRU网络生成问题的方法。首先根据句子,对问题类型采用不同的模型训练出一个分类器,在特征抽取的过程中把语法信息,把答案位置、问题类型等多维度特征综合到一起进行训练,经过编码器后,通过一个网络进行生成类别后再通过解码器输出。实验结果表明,问题类型的精度有了相应的提高。(3)基于集成学习在问题生成上的应用,通过微调,模型参数平均等手段训练多种模型,在多模型集成中对集成参数进行自适应优化,可以在数据集上取得比单一模型更好的效果。为了验证方法的可行性,进行了相应的实验,实验结果证明比经典的序列模型取得了更好的效果。
其他文献
应用GC/MS分析了不同打顶时期对白肋烟烟叶表皮腺毛分泌物种类及含量的影响。结果表明,白肋烟烟叶腺毛分泌物以烟碱为主,不同打顶处理的烟叶表皮腺毛分泌物种类和含量存在差异,在
<正> 从唱歌和唱戏谈起常常见到这样的现象:戏曲演员不能唱歌,即使唱起来总带着戏味儿。有人认为这是戏曲演员音乐素质问题,在歌唱上适应性不强。这话似有道理,细一琢磨又不
目的探讨和总结30例产褥感染患者的临床综合护理体会。方法对我院2009年1月至2010年3月发生产褥感染的30例患者实施科学的、合理的个体化护理。结果护患关系融洽,患者以乐观
<正>说起地方特产,神州大地可谓数不胜数,可是能把地方特产打造成为省级老字号、非物质文化遗产的人可谓凤毛麟角,农民出身的申永广则是奇迹的打造者之一——他不仅将万古羊
在中国山水画发展的过程中,不同地域文化往往会孕育出风格不一的作品。有关描绘北方山石的绘画,从五代北宋时期就有荆浩,范宽等人在作品和技法上颇具影响力。中国山水画的学
实施初中数学创新教育,教师一要更新教育理念,二要具备创新素质,三要解决实施的方法,四要注重情感智力的培养。
目前药物成瘾的种类有很多,其中最受关注的则是海洛因成瘾。海洛因是目前严重威胁公共健康的成瘾药品,长期服用海洛因会对大脑造成很严重的损伤,这种损伤通常是不可逆转的。
根据花生的营养特点.花生高产的关键是要有较高的土壤肥力基础.但这个肥力基础并不能通过当年增施肥料达到。而是长期培肥的结果。因此,在高产施肥上,必须建立用地养地相结合的平