问答系统中复合问句分解技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：yanyuhan66

【摘要】

：

【作者】

：

李威宇

【出处】

：

哈尔滨工业大学

【发表日期】

：

2020年02期

【关键词】

：

自然语言处理问答系统问句理解复合问句分解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

问答技术是目前自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向,它旨在构建一个能够自动回答人类用自然语言提出的问句的系统——问答系统。在调查研究中,本课题发现当前许多问答系统仅具备回答简单问句(如“中国的国庆节是什么时候?”)的能力,而对于比较复杂的问句(如“姚明的身高和体重是什么?”“姚明女儿的身高是多少”)无法有效理解和回答。本文认为许多复杂的问句中存在多个问题的复合,可以被分解为问答系统能够回答的简单问句,因而提出了复合问句分解任务。本文将复合问句分解任务分为两个子任务:复合问句的分类任务和复合问句的子问句生成任务,并对两个任务分别构建了相应数据集以进行研究。针对复合问句分解任务缺乏可用的中文语料的情况,本文自行从百度知道、《一站到底》节目、HotpotQA等来源搜集了相关语料,根据问句的句法结构和解答方式定义了四种类型的复合问句,并制定了详细的标注规则,构建了包含5100多句复合问句的复合问句分类和子问句生成的数据集。复合问句的分类任务旨在识别出简单问句和不同类型的复合问句,本文认为复合问句具有比较显著的语法和语义特征,并基于此对相关机器学习和深度学习算法进行了研究,包括:基于树核SVM的分类器、基于双向GRU的分类器、利用基于预训练BERT模型微调的分类器,最高取得了0.9240的问句分类准确率。复合问句的子问句生成任务旨在生成可用以回答原复合问句的多个简单问句。不同于过去研究中采用的基于规则或基于序列标注的方法,本文基于序列到序列的神经网络模型的对复合问句的子问句生成方法进行了研究,在研究中对指示器-生成器网络模型(Pointer-Generator-Net)进行了改进以提升在子问句生成任务中的效果。考虑到构建的数据集对于神经网络的文本生成任务来说相对较小,本研究在复合问句的子问句生成任务的训练数据上应用了数据增强的方法,包括基于可复述词替换和基于模板填充的方法,构建了包含数万条数据的增强训练数据。除此之外,本研究还提出了一些其他技巧以提升生成子问句的效果,最终在此任务上达到了0.9376的ROUGE-L F指标,在人工评价时取得了0.57的正确率。

其他文献

美宝皮康霜临床验证报告

作才随机选择５０例皮肤瘙痒疾病进行美宝皮康霜疗效观察，观察期间避免使用任何其它内服及外用药。对治疗前后的红斑丘疹，水疱等进行评价，并计算下降指数，结果，显效率为８５％，有效率９６％，未发现明

期刊

临床验证显效率皮康霜

实验微课及模拟动画在高分子化学理论教学中的应用

为了提高教学效果,在高分子化学理论教学中,采用实验微课及模拟动画,以＂甲基丙烯酸甲酯的本体聚合＂实验以及自由基聚合中的链引发和链增长基元反应为例,实验视频或动画的展示与

期刊

高分子化学实验微课模拟动画教学

基于振幅分割的光偏振测量技术的研究

偏振是光波的一个重要性质,在材料科学、光学、光工程学、通讯学和天文学等领域中,光偏振的测量具有十分重要的意义。分振幅偏振光计是一种能够快速测量光偏振的传感器。它利

学位

振幅分割斯托克斯矢量米勒矩阵偏振光计人工神经网络遗传算法

T-bet、GATA-3与T细胞亚群在再障中的相关性研究

目的:探讨外周血中T-bet和GATA-3 mRNA的表达在再生障碍性贫血中的发病机制及意义。方法:入选27例再障患者,其中重型再障15例,轻型再障l2例,25例健康体检者为对照组。采用流

期刊

再生障碍性贫血T-betGATA-3

外资零售发展格局的回顾和展望

外资零售经过十多年的积淀和发展，也已成为中国零售市场不容忽视的力量，这是对过去十年简单的评价。过去十年外资零售业发展的主要轨迹第一，在局部市场和特定业态的领先地位已然

期刊

本土零售企业回顾和展望发展格局

改革开放与外资零售商业在国内的发展

一、外资零售企业发展起步1992年7月,我国出台了《关于商业零售领域利用外资问题的批复》的文件,国家批准在北京、上海、广州、大连、青岛等6个城市与5个经济特区,试点外资零

期刊

零售商业外资零售企业改革开放

论外感与内伤的统一性

外感与内伤虽属不同范畴的两大类疾病,但在临床中常交互影响,具有统一性。通过对其发病基础、辨证方法以及治疗原则的分析,总结了外感与内伤具有共同的病理基础即阴阳气血失

期刊

外感内伤辨证治法

课程一致性:方法比较、问题反思与本土化探寻

课程一致性主要研究课程系统各要素之间的匹配或适切程度,为课程评价提供实证研究的框架思路和分析方法。通过对当前最具代表性的三种一致性评价方法——Webb模式、SEC模式和

期刊

课程一致性一致性研究方法本土化

发芽对粮食酚类化合物及抗氧化活性的影响

粮食发芽过程中很多营养成分和生物活性成分发生了改变,提高了粮食的营养价值。综述大麦、荞麦、燕麦、大豆、黑豆、绿豆、扁豆、青豆、糙米及粟米等粮食发芽后酚类化合物及

期刊

发芽粮食酚类化合物抗氧化活性

公路运输资源整合的探讨

公路是国家的重要经济战略资源，是综合国力的现实体现。在各种运输方式中，由于公路运输能够实现“门对门”服务，因而发展最为迅速。2002年末，我国公路通车里程达175．8万km，特别是高

期刊

公路货运周转量创新管理模式公路资源社会经济发展战略客货运输优化整合生产力布局交通运输代理制公路运输国民经济综合运输体系市场准入制度国道

问答系统中复合问句分解技术研究

其他学术论文