论文部分内容阅读
互联网的发展促进了文本数据的大量积累,对文本数据进行理解并返回用户需要的信息,已成为自然语言处理研究领域的热点问题。然而,当前搜索引擎仅仅根据网页和问题的相关性返回搜索结果,并不能充分理解用户意图。随着深度学习技术的不断发展创新,机器阅读理解模型成为人们高效获取有效信息的首选算法,能够满足用户快速、高效的搜索需求,从而节约时间成本。机器阅读理解是衡量文本理解的一项重要任务,它的发展与深度学习技术密切相关,并在一定程度上取得了很好的效果。但仍然存在以下问题:在模型上,目前机器阅读理解模型大都面临随着网络深度的加深,原始信息丢失的问题,从而降低模型对答案的预测能力;在数据集上,面对越来越多面向真实应用场景的大规模阅读理解数据集,目前很多机器阅读理解技术已不能对这类数据集做出很好的回答。此外,尽管目前很多阅读理解技术已在英文数据集上取得了很好的效果,但在中文场景下并未得到充分验证。基于上述问题,为了更好地完成机器阅读理解任务,本文在现有机器阅读理解模型的研究基础上,针对片段抽取型阅读理解任务,提出了基于深度学习的中文机器阅读理解模型。本文主要工作和贡献如下:(1)针对传统堆叠的BiLSTM网络,随着网络深度加深会出现信息丢失和注意力机制在越深的网络中越不稳定的问题,本文提出了BiDAF-DRCN阅读理解模型。在BiDAF-DRCN模型中,本文将DenseNet和BiLSTM结合提出DRCN编码器。DRCN编码器将文章和问题的原始信息、注意力权重和BiLSTM层的信息采用DenseNet的方式连接,得到文章和问题的表示,加强特征在网络中的传递,从而充分利用原始信息。另一方面,针对BiDAF中只提取了文章到问题和问题到文章的双向信息,忽略了文章和问题自身内部结构关系的问题,本文提出了BiDAF-MHT-Reader模型。在BiDAF-MHT-Reader模型中,本文首先将Highway和卷积神经网络结合,初步提取文章和问题的特征,丰富输入信息。然后在BiDAF的基础上融合多头自注意力机制,对文章和问题的内部信息进行捕获,充分理解文章和问题的信息。对比BiDAF在DuReader-Search和DuReader-Zhidao上的结果,BiDAF-DRCN的BLEU-4值分别提升了1.4%和1.9%,Rouge-L值分别提升了1.4%和0.9%;BiDAF-MHTReader的BLEU-4值分别提升1.7%和2.0%,Rouge-L值分别提升了2.1%和1.0%。(2)BiDAF能够很好地建模文章和问题之间的双向信息,但实际上机器阅读理解文章中每个词对回答问题的重要性是不同的,本文结合R-NET模型中的门限循环神经网络提出了Attention-Reader模型。模型首先采用多头自注意力机制,获取文章和问题的上下文信息,促进对文章和问题内部结构特征的提取。然后通过RNET中的门限循环神经网络促进对文章和问题中重要信息的理解,提升模型对答案的预测能力。在模型的融合层,同样基于多头自注意力机制再一次理解融合了问题信息后的文章信息,强化文章内部信息的交互。实验结果表明,对比其他主流模型,Attention-Reader在DuReader和MS MARCO两个数据集上,都表现出了不错的性能。