论文部分内容阅读
自进入互联网时代以来网络上各类信息的爆炸性增长,在获取准确信息时人们总要花费不少精力。为了解决这个问题,搜索引擎出现了,搜索引擎有助于这个问题的解决,但是其也具有很多的局限性,其中最重要的一点就是其只能按照关联程度返回一系列的网页,而不是一句准确的回答,人们依旧需要花大量时间去寻找所需的答案。所以人们还是需要一种能更为简单快捷地获取信息的方式,此时问答系统便应运而生成为一大研究热门。其中限定域问答系统又因其可行性高和用途广泛而备受关注。而海量的网络信息也为问答系统提供了海量的信息来源。故本文致力于基于网络信息的限定域问答系统的研究。其中主要分为以下三个部分。基于网络信息的知识库自动构建。过往知识库的构建往往需要大量的人工,费事费力。为解决该问题本文建立了基于网络信息的知识库自动构建框架,即基于领域词条集收集百科和在线问答社区的问答对。领域词条集则通过爬取领域网站语料并抽取其中的领域词条构建而成。此处,本文提出了改进的基于TextRank和Word2Vec的领域词条提取方法,并取得了不错的效果。基于网络信息的检索式问答系统构建。由于传统问答系统知识库内容的局限性,很多问句检索时会找不到匹配的答案。为解决该问题,本文设计了基于网络信息的检索式问答系统框架,该框架会将问答系统无法回答的问题放到百科、在线问答社区和搜索引擎中进行匹配或搜索,从而获取问题的回答。在框架运行过程中将同时对领域知识库进行扩充。在该框架下基本杜绝了无回复的情况。本文还结合自动建库,设计实现了一个能帮助用户快速自动化地构建问答系统的系统。基于网络信息和深度学习的生成式问答系统构建。传统的基于规则模板和检索的问答系统只是基于现有知识,抽取一个已有的对应答案,并未真正理解问题产生答案。而真正的生成式问答,此前也多用在开放的闲聊领域。本文基于Encoder-Decoder框架和BiLSTM建立了限定域生成式问答模型,尝试用结合去噪自动编码器的自监督训练和结合词性和领域词条信息的词向量输入来提高模型的性能,并尝试在解码端输出时结合改进的Beam Search算法,在BLEU这一参考指标下,这些设计和改进都明显提升了效果。