论文部分内容阅读
机器阅读理解是指基于给定上下文系统自动回答相应的问题[1],该任务不仅是人工智能及自然语言处理领域的一个研究热点,更是一个挑战。机器是否正确、充分地理解问题是研究阅读理解任务的关键和基础。但是,目前大部分模型只通过注意力机制对问题建模,对问题理解并不充分。本文针对该问题提出了相应的解决策略,主要工作如下:(1)提出一个基于多维度问题理解的阅读理解方法。本文通过问题类型识别、问题重要词识别、添加外部知识等多个维度加强模型对问题的理解。多维度问题理解的解答策略的主要思想是:首先,利用TextCNN神经网络模型以及问题疑问词确定问题类型,并通过句法分析树和人工制定的规则获得问题的重要词;然后,针对问题重要词添加对应的外部知识;最后,将之前所有的信息融入到阅读理解模型中。在DuReader2.0数据集上进行方法检验,融入多维度问题理解的阅读理解模型比基线模型的Rouge-L值和Bleu-4值分别提高了8.2%、7.0%。(2)针对不包含疑问词的隐式问题提出了相应的理解策略。本文处理此类问题的主要思想为:首先,将隐式问题分为一般隐式问题和复杂隐式问题两类;其次,针对一般隐式问题,利用基于规则的方法添加疑问词将其转换为显式问题;针对复杂隐式问题,依据问题答案使用TextRNN模型识别问题中缺失的疑问词并将其转换为显式问题。最后,将隐式问题的理解策略融入到阅读理解模型中。实验结果表明:融入隐式问题处理的阅读理解模型比基线模型的Rouge-L值和Bleu-4值分别提高了3.6%、2.0%,融入隐式问题处理和多维度问题理解方法的阅读理解模型比基线模型的Rouge-L值和Bleu-4值分别提高了9.5%、7.8%。(3)设计并实现了一个针对中文篇章片段抽取式的阅读理解原型系统。本文依据上述研究方法设计并实现了一个针对中文篇章片段抽取式的阅读理解系统。系统主要包括五个模块:预处理、隐式问题处理、问题理解、篇章理解、答案预测,实现的主要功能是:输入问题及篇章,经过对隐式问题判断、问题分类、识别问题重要词、添加外部知识等问题理解处理步骤,然后对篇章和问题建模,最后输出问题答案。本文提出了一个基于多维度问题理解的阅读理解方法以增强模型理解问题的能力,并对隐式问题的理解提出了相应的解决策略,在真实问题的解答上取得了一定的效果。今后,会进一步加强对问题重要词、抽象词的理解,探索对隐式问题理解更充分的方法。