论文部分内容阅读
随着网络信息量的急剧增长,人们期待通过一种更加简洁的方式获取信息。传统的搜索引擎只能返回一系列的网页,人们期待通过一种更加简洁的方式获取信息,问答系统应运而生。问答系统大体上分为两类:开放域问答系统、限定域问答系统。这两种问答系统的实际工作过程有很大差别。限定域问答系统一般分为三个部分:构建知识库、问句检索、用户问句分析。本文主要对限定域问答系统的构建知识库及问句检索两部分进行了研究。本文构建知识库会涉及到三个方面:数据源的选择、知识的组织方式、自动化程度。本文通过调研,发现大多数研究工作在数据源的选择上,往往仅单独的考虑百科、问答社区、领域网站等。很少有考虑利用多个数据源建立知识库。此外,许多研究工作都是以本体为知识组织方式,然后根据特定领域,采用特定的方法构建特定的知识库。由于本体的特殊性,这种建立知识库的方法难以移植,一旦领域或者需求产生变化,那么需要重头开始构建知识库,过往的工作几乎不能复用。因此为了提高限定域问答系统构建知识库的自动化水平,本文提出了一个面向多数据源自动构建知识库的框架。该框架以领域网站、百科及问答社区多个数据源为知识来源,并以问答对为主要组织方式。由于本文基于领域术语来收集百科及问答社区两个知识源的特定领域语料,导致领域术语的精度将直接关乎到知识库的精度,所以本文对领域术语抽取工作也做了进一步研究,并对基于word2vec的术语抽取算法进行了改进。在检索方面,由于传统的限定域问句检索框架仅仅针对本地领域知识库进行检索,当无法找到合适的候选问句时,将对部分用户问句不处理,即出现“无回复”现象。为了缓解该问题,本文提出了结合领域知识库及多个在线问答社区的问句检索框架。此外,本文在改进后的限定域问句检索框架运行过程中,增添了自动扩充知识库的功能。以前面的研究工作为基础,本文提出一套基于微信平台搭建限定域问答系统的策略。该策略具有通用性,用户只需要按照说明文件进行配置,就能够快速搭建一个限定域问答系统。此外,本文的所有工作已经在github上开源,希望能为接下来的问答系统研究者们提供帮助。