论文部分内容阅读
搜索引擎的出现是信息检索领域的一个重要发展,人们可以通过搜索引擎查找自己需要的内容以提升工作和生活中解决问题的效率。但随着信息时代不断发展,网络数据量飞速增长,通过搜索引擎可能会获得一些冗余甚至是无关的网页,人们更期待简洁且精准的回答。智能问答系统的出现正好满足了人们的需求,这种拟人化的智能系统能够接收用户使用自然语言提出的问题,然后分析用户意图并且通过推理计算给用户返回直接准确的答案。现有的中文问答系统由于中文语句的连续性、中文语法的灵活性等原因,目前没有很成熟的中文问答系统开源框架。其次,深度学习算法在问答领域的准确率还有很大的提升空间。再者,当前主流的问答系统是面向开放领域实现的,对于专业领域的提问可能无法返回用户满意的答案。所以,基于深度学习且面向限定领域的中文问答系统有很大的研究价值。问答系统类型可以根据用户提问所属数据域、答案的数据来源、答案生成的反馈机制和信息检索阶段所用方法进行分类,本文主要研究面向汽车知识限定领域、基于问答对、检索式以及深度学习方法的中文问答系统,以期在实验中提高问答系统的准确率,并且实现以汽车说明书作为基础语料构建知识库的汽车信息问答系统。本文主要对关于限定领域知识库的构建、深度学习在句子匹配中的应用、问答系统的构建三个方面进行研究。限定领域知识库的构建主要涉及汽车领域词库的构建和复述替换,汽车说明书的语料处理以及问答对的构建。我们选择文本作为知识库的信息组织形式,简单来说通过网络爬虫的方法获取知识库的问题语料,再对应汽车说明书的内容进行答案填充,形成汽车领域知识库。而深度学习方面,以往的句子匹配模型存在一些局限性:首先,许多研究单独使用BiLSTM或CNN算法,而没有考虑到算法融合能够更全面地表示句子对。其次,在融合算法中只考虑到使用单向注意力机制,而没有考虑到能够使句子对中两个句子表示相互作用的双向注意力机制。本文针对现有模型的局限性,提出一种基于BiGRU算法的混合模型,此模型将比BiLSTM算法更简单的BiGRU算法与CNN算法进行融合,并在池化层添加双向注意力机制。使用此模型在开放数据集上进行实验,证明了此模型在句子匹配中的有效性。有了上述两方面研究工作为基础,并且结合自然语言处理、语义分析、人工智能和信息检索等技术,本文提出汽车信息问答系统,充分理解汽车用户的自然语言提问后,检索汽车领域知识库中与用户提问相似对度最高的问答对对应的答案返回给用户,以此解决问题。