基于位置感知编码与问句类型的问题生成研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:zb272939419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习与文本生成的发展与应用,机器阅读领域研究也取得了很大的进步,目前大多数的机器阅读理解数据集为问答对形式。昂贵的数据集过程严重限制了其大小与领域,因此问题生成作为其数据扩充的探索方向也得到广泛的关注。本文基于位置感知编码与问句类型的问题生成研究,主要使用Seq2Seq框架搭建模型。以长短不一的篇章段落,以及抽取篇章中的短句名词为作为答案片段或问句类型作为模型输入,生成语义丰富,多样性强的问句。目前大部分的神经网络方法多单纯地采用LSTM的Seq2Seq框架,模型存在问句中包含答案词,生成问句与答案匹配度低,问句生成形式单一等诸多问题。针对这些问题,本文研究了基于位置感知编码与问句类型的问题生成模型,主要在机器阅读数据集SQuAD上改良Seq2Seq框架做模型研究和实现。具体包括以下工作:(1)针对模型生成问句中包含答案词现象,提出一种基于位置感知编码的问题生成模型。Seq2Seq框架中包括位置感知编码模块与带Coverage机制解码模块。本文提出一种基于位置感知编码模块,它利用篇章文本与抽取答案文本相对距离的远近关系对输入的篇章文本进行差异化编码;同时降低答案词对应的编码权重,以缓解解码模型对答案词的生成概率。并且针对目前所使用的数据集信息量不足的情况,使用原始机器阅读理解数据集SQuAD中的段落构造出一种新的问题生成数据集。其次使用位置感知编码模块处理长短不同层级的文本获得段落级与句子级上下文编码特征来丰富问题生成的文本信息。解码阶段利用带Coverage机制整合两层级特征进行问句生成。实验表明该模型不仅能改善问句生成质量,并且有效缓解生成问句包含答案词问题。(2)针对问句生成形式单一问题,提出一种基于问句类型的问题生成模型。该模型结合变分自编码器提出一种利用问句类型进行问题生成方法。在多层级上下文的条件下通过KL散度优化答案片段与问句类型之间数据分布关系,使模型不但能通过限定答案的进行问题生成,而且能变换问句类型生成多样化的问句。且为了生成问句与答案的匹配,提出了注意力权重调整模块根据答案对文本特征进行特殊编码。实践表明,本文所提出的模型在数据集SQuAD上对问题生成任务均有所改善。
其他文献
邯郸县在探索建立水土保持生态补偿机制的过程中,深入实际调查取证、正确运用法律法规,充分调动各方面积极性,从源头上有效遏制了水土流失,保护了生态环境,为邯郸县水土保持
在科技进步日新月异、建筑市场竞争日趋激烈的今天,企业之间的竞争,是人才的竞争,是技术力量的竞争。多年来,省水工局一直重视人才,注重培训,取得了较好效果。
明代档案因战争和统治集团的腐败没落,损失破坏非常严重,导致至今犹存的明代档案甚少,甚是珍贵,主要收贮于中国第一历史档案馆和辽宁省档案馆。长期以来,由于现存明档数量较
形势是党和国家制定各项方针政策的基础和客观依据。正确的政策是党和国家事业得到胜利的重要保证。本文将用《形势与政策》理论对我国的经济形势进行分析,并提出建议。
危机事件的社会影响评估作为危机管理研究的重要内容,当前尚无有效的评价测量方法。本文提出了一种基于网络信息资源的危机事件社会影响评价方法,并通过效度分析,认为该方法较有效可行。同时对评估结果进行了相应分析。
新组建的司法部党组调研论证提出了强化监狱改造的新思路,即"统筹推进以政治改造为统领的五大改造新格局",这是监狱机关学习贯彻习近平新时代中国特色社会主义思想和党的十九
近些年来,基于人脸识别的智能视频监控系统得到了很大的发展,并且相关的产品越来越多地应用在人们的日常生活中,比如安防监控、刷脸支付这些场景都使用了相关的技术。其中人