问答系统中复合问句分解技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yanyuhan66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答技术是目前自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向,它旨在构建一个能够自动回答人类用自然语言提出的问句的系统——问答系统。在调查研究中,本课题发现当前许多问答系统仅具备回答简单问句(如“中国的国庆节是什么时候?”)的能力,而对于比较复杂的问句(如“姚明的身高和体重是什么?”“姚明女儿的身高是多少”)无法有效理解和回答。本文认为许多复杂的问句中存在多个问题的复合,可以被分解为问答系统能够回答的简单问句,因而提出了复合问句分解任务。本文将复合问句分解任务分为两个子任务:复合问句的分类任务和复合问句的子问句生成任务,并对两个任务分别构建了相应数据集以进行研究。针对复合问句分解任务缺乏可用的中文语料的情况,本文自行从百度知道、《一站到底》节目、HotpotQA等来源搜集了相关语料,根据问句的句法结构和解答方式定义了四种类型的复合问句,并制定了详细的标注规则,构建了包含5100多句复合问句的复合问句分类和子问句生成的数据集。复合问句的分类任务旨在识别出简单问句和不同类型的复合问句,本文认为复合问句具有比较显著的语法和语义特征,并基于此对相关机器学习和深度学习算法进行了研究,包括:基于树核SVM的分类器、基于双向GRU的分类器、利用基于预训练BERT模型微调的分类器,最高取得了0.9240的问句分类准确率。复合问句的子问句生成任务旨在生成可用以回答原复合问句的多个简单问句。不同于过去研究中采用的基于规则或基于序列标注的方法,本文基于序列到序列的神经网络模型的对复合问句的子问句生成方法进行了研究,在研究中对指示器-生成器网络模型(Pointer-Generator-Net)进行了改进以提升在子问句生成任务中的效果。考虑到构建的数据集对于神经网络的文本生成任务来说相对较小,本研究在复合问句的子问句生成任务的训练数据上应用了数据增强的方法,包括基于可复述词替换和基于模板填充的方法,构建了包含数万条数据的增强训练数据。除此之外,本研究还提出了一些其他技巧以提升生成子问句的效果,最终在此任务上达到了0.9376的ROUGE-L F指标,在人工评价时取得了0.57的正确率。
其他文献
作才随机选择50例皮肤瘙痒疾病进行美宝皮康霜疗效观察,观察期间避免使用任何其它内服及外用药。对治疗前后的红斑丘疹,水疱等进行评价,并计算下降指数,结果,显效率为85%,有效率96%,未发现明
为了提高教学效果,在高分子化学理论教学中,采用实验微课及模拟动画,以"甲基丙烯酸甲酯的本体聚合"实验以及自由基聚合中的链引发和链增长基元反应为例,实验视频或动画的展示与
偏振是光波的一个重要性质,在材料科学、光学、光工程学、通讯学和天文学等领域中,光偏振的测量具有十分重要的意义。分振幅偏振光计是一种能够快速测量光偏振的传感器。它利
目的:探讨外周血中T-bet和GATA-3 mRNA的表达在再生障碍性贫血中的发病机制及意义。方法:入选27例再障患者,其中重型再障15例,轻型再障l2例,25例健康体检者为对照组。采用流
外资零售经过十多年的积淀和发展,也已成为中国零售市场不容忽视的力量,这是对过去十年简单的评价。过去十年外资零售业发展的主要轨迹第一,在局部市场和特定业态的领先地位已然
一、外资零售企业发展起步1992年7月,我国出台了《关于商业零售领域利用外资问题的批复》的文件,国家批准在北京、上海、广州、大连、青岛等6个城市与5个经济特区,试点外资零
外感与内伤虽属不同范畴的两大类疾病,但在临床中常交互影响,具有统一性。通过对其发病基础、辨证方法以及治疗原则的分析,总结了外感与内伤具有共同的病理基础即阴阳气血失
课程一致性主要研究课程系统各要素之间的匹配或适切程度,为课程评价提供实证研究的框架思路和分析方法。通过对当前最具代表性的三种一致性评价方法——Webb模式、SEC模式和
粮食发芽过程中很多营养成分和生物活性成分发生了改变,提高了粮食的营养价值。综述大麦、荞麦、燕麦、大豆、黑豆、绿豆、扁豆、青豆、糙米及粟米等粮食发芽后酚类化合物及
公路是国家的重要经济战略资源,是综合国力的现实体现。在各种运输方式中,由于公路运输能够实现“门对门”服务,因而发展最为迅速。2002年末,我国公路通车里程达175.8万km,特别是高