基于神经网络和多头自注意力机制的中文机器阅读理解研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:fanfanzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展促进了文本数据的大量积累,对文本数据进行理解并返回用户需要的信息,已成为自然语言处理研究领域的热点问题。然而,当前搜索引擎仅仅根据网页和问题的相关性返回搜索结果,并不能充分理解用户意图。随着深度学习技术的不断发展创新,机器阅读理解模型成为人们高效获取有效信息的首选算法,能够满足用户快速、高效的搜索需求,从而节约时间成本。机器阅读理解是衡量文本理解的一项重要任务,它的发展与深度学习技术密切相关,并在一定程度上取得了很好的效果。但仍然存在以下问题:在模型上,目前机器阅读理解模型大都面临随着网络深度的加深,原始信息丢失的问题,从而降低模型对答案的预测能力;在数据集上,面对越来越多面向真实应用场景的大规模阅读理解数据集,目前很多机器阅读理解技术已不能对这类数据集做出很好的回答。此外,尽管目前很多阅读理解技术已在英文数据集上取得了很好的效果,但在中文场景下并未得到充分验证。基于上述问题,为了更好地完成机器阅读理解任务,本文在现有机器阅读理解模型的研究基础上,针对片段抽取型阅读理解任务,提出了基于深度学习的中文机器阅读理解模型。本文主要工作和贡献如下:(1)针对传统堆叠的BiLSTM网络,随着网络深度加深会出现信息丢失和注意力机制在越深的网络中越不稳定的问题,本文提出了BiDAF-DRCN阅读理解模型。在BiDAF-DRCN模型中,本文将DenseNet和BiLSTM结合提出DRCN编码器。DRCN编码器将文章和问题的原始信息、注意力权重和BiLSTM层的信息采用DenseNet的方式连接,得到文章和问题的表示,加强特征在网络中的传递,从而充分利用原始信息。另一方面,针对BiDAF中只提取了文章到问题和问题到文章的双向信息,忽略了文章和问题自身内部结构关系的问题,本文提出了BiDAF-MHT-Reader模型。在BiDAF-MHT-Reader模型中,本文首先将Highway和卷积神经网络结合,初步提取文章和问题的特征,丰富输入信息。然后在BiDAF的基础上融合多头自注意力机制,对文章和问题的内部信息进行捕获,充分理解文章和问题的信息。对比BiDAF在DuReader-Search和DuReader-Zhidao上的结果,BiDAF-DRCN的BLEU-4值分别提升了1.4%和1.9%,Rouge-L值分别提升了1.4%和0.9%;BiDAF-MHTReader的BLEU-4值分别提升1.7%和2.0%,Rouge-L值分别提升了2.1%和1.0%。(2)BiDAF能够很好地建模文章和问题之间的双向信息,但实际上机器阅读理解文章中每个词对回答问题的重要性是不同的,本文结合R-NET模型中的门限循环神经网络提出了Attention-Reader模型。模型首先采用多头自注意力机制,获取文章和问题的上下文信息,促进对文章和问题内部结构特征的提取。然后通过RNET中的门限循环神经网络促进对文章和问题中重要信息的理解,提升模型对答案的预测能力。在模型的融合层,同样基于多头自注意力机制再一次理解融合了问题信息后的文章信息,强化文章内部信息的交互。实验结果表明,对比其他主流模型,Attention-Reader在DuReader和MS MARCO两个数据集上,都表现出了不错的性能。
其他文献
科学技术的快速发展和社会形态的快速变化,使得人们对公共安全的重视程度越来越高。大量的视频监控设备安放在人流密集的公共场所,这对于刑事案件侦破、失踪人口追踪、城市治
研究目的:最近,国家男足运动员韦世豪在中国杯的比赛中场上故意犯规事件,不仅在国内媒体以及公众间引起了强烈反响,国外知名媒体也对此事件进行了相关报道,虽然他赛后在电视
颤振稳定性问题是大跨度桥梁风致振动研究的重要一环,国内外学者开展了桥梁颤振稳定性的研究,虽取得了一定的成果,但关于颤振稳定性的判定方法在精度和适用性方面存在一定的
位移是结构安全性能的重要指标。大型结构动态位移监测存在较多困难。结构位移摄像测量具有非接触、远距离等优点,有望成为一种实用方法。由于摄像机存在着温度效应,温度变化
随着现代机械设备机电一体化、高速化及智能化的发展,船舶工业中的液压系统元件广泛应用且日益精密。然而目前较为普遍存在的一个问题是工作介质污染对船舶液压系统的工作性
近年来,随着航天技术的不断发展,航天器小型化受到了越来越多研究机构和学者的关注。陀螺飞轮能够在输出三轴控制力矩的同时测量航天器的两轴姿态角速度,集成了姿态测量和控
铁路、隧道、桥梁等基础设施的路基发生微小的变形,可能会造成路面、隧道裂缝,甚至路面坍塌等事故,因此及时掌握路基沉降变形情况对基础设施的安全运营至关重要。但传统的路
图像配准指的是对不同时间、不同传感器或是不同视角捕获的有重叠区域的同一场景图像寻找最优几何变换的过程。图像配准技术是图像处理的一个关键步骤,主要应用于遥感、军事
PPP是Public-Private Partnership的简称,在中国被译为“政府和社会资本合作”,是政府和社会资本建立长期合作关系,通过在基础设施及公共服务领域实施项目的一种模式。党的十
医学图像融合的目的是为了解决由于成像设备的局限性,对一些疾病的诊断需将给几幅不同模态的医学图像组合起来,包括从图像融合和一般信息融合到解决通过人体器官和细胞图像反