论文部分内容阅读
随着深度学习与文本生成的发展与应用,机器阅读领域研究也取得了很大的进步,目前大多数的机器阅读理解数据集为问答对形式。昂贵的数据集过程严重限制了其大小与领域,因此问题生成作为其数据扩充的探索方向也得到广泛的关注。本文基于位置感知编码与问句类型的问题生成研究,主要使用Seq2Seq框架搭建模型。以长短不一的篇章段落,以及抽取篇章中的短句名词为作为答案片段或问句类型作为模型输入,生成语义丰富,多样性强的问句。目前大部分的神经网络方法多单纯地采用LSTM的Seq2Seq框架,模型存在问句中包含答案词,生成问句与答案匹配度低,问句生成形式单一等诸多问题。针对这些问题,本文研究了基于位置感知编码与问句类型的问题生成模型,主要在机器阅读数据集SQuAD上改良Seq2Seq框架做模型研究和实现。具体包括以下工作:(1)针对模型生成问句中包含答案词现象,提出一种基于位置感知编码的问题生成模型。Seq2Seq框架中包括位置感知编码模块与带Coverage机制解码模块。本文提出一种基于位置感知编码模块,它利用篇章文本与抽取答案文本相对距离的远近关系对输入的篇章文本进行差异化编码;同时降低答案词对应的编码权重,以缓解解码模型对答案词的生成概率。并且针对目前所使用的数据集信息量不足的情况,使用原始机器阅读理解数据集SQuAD中的段落构造出一种新的问题生成数据集。其次使用位置感知编码模块处理长短不同层级的文本获得段落级与句子级上下文编码特征来丰富问题生成的文本信息。解码阶段利用带Coverage机制整合两层级特征进行问句生成。实验表明该模型不仅能改善问句生成质量,并且有效缓解生成问句包含答案词问题。(2)针对问句生成形式单一问题,提出一种基于问句类型的问题生成模型。该模型结合变分自编码器提出一种利用问句类型进行问题生成方法。在多层级上下文的条件下通过KL散度优化答案片段与问句类型之间数据分布关系,使模型不但能通过限定答案的进行问题生成,而且能变换问句类型生成多样化的问句。且为了生成问句与答案的匹配,提出了注意力权重调整模块根据答案对文本特征进行特殊编码。实践表明,本文所提出的模型在数据集SQuAD上对问题生成任务均有所改善。