论文部分内容阅读
本文研究的课题是自然语言处理领域中,基于深度学习的无结构文本自动问题生成任务。相较于自然语言处理其他分支的任务而言,这个领域是一项更具挑战性的生成式任务。自动问题生成致力于从包含上下文的句子中提出问题,这其中包含问什么,怎么问这两个基本方面。相较而言,怎么问是本文更加关心的问题,毕竟问什么这个问题,可以有一个宽泛的基线。近年来关于神经网络为基础的方案都采用基于序列到序列的模型,使用答案和上下文句子作为输入,然后预测一个相关的问题作为结果。这样的模型有以下两方面的问题,首先生成问题的句子和问题的类型之间的匹配不尽如人意,另一方面如果模型复制上下文的词语离答案位置太远会导致语句的语义上存在瑕疵。针对以上问题,本文研究了一系列基于序列到序列的自动问题生成模型。尝试了包括多特征的输入算法模型的融合,并且在此基础上融合集成学习的优点来改进模型的表现,通过集成的方法得到更好的生成效果。问题生成领域方面新兴的研究越来越多,集成了越来越多的输入特征,以生成更复杂的高水平问题为目标,这些趋势表明问题生成已经变得越来越成熟。通过分析国内外对该任务的研究现状,本文研究的内容主要包括以下部分:(1)本论文提出了基于深度学习的多个模型进行融合的方法以解决问题生成语法不合理的问题。主要做法是对基于序列模型的问题生成进行改进,对多个模型分别进行训练,再通过融合的步骤进行打分,得到多模型中较好的结果。基于多模型融合的方法进行问题生成,在编码器的实现上采用基于门控循环单元(Gated Recurrent Unit,GRU)和自注意力两种方式。对两种模型同时训练,最后通过模型融合模块对两个模型的输出进行决策优化。(2)提出了根据GRU网络生成问题的方法。首先根据句子,对问题类型采用不同的模型训练出一个分类器,在特征抽取的过程中把语法信息,把答案位置、问题类型等多维度特征综合到一起进行训练,经过编码器后,通过一个网络进行生成类别后再通过解码器输出。实验结果表明,问题类型的精度有了相应的提高。(3)基于集成学习在问题生成上的应用,通过微调,模型参数平均等手段训练多种模型,在多模型集成中对集成参数进行自适应优化,可以在数据集上取得比单一模型更好的效果。为了验证方法的可行性,进行了相应的实验,实验结果证明比经典的序列模型取得了更好的效果。