限定域问答系统自动建库及检索研究与系统设计实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gaoyijie1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息量的急剧增长,人们期待通过一种更加简洁的方式获取信息。传统的搜索引擎只能返回一系列的网页,人们期待通过一种更加简洁的方式获取信息,问答系统应运而生。问答系统大体上分为两类:开放域问答系统、限定域问答系统。这两种问答系统的实际工作过程有很大差别。限定域问答系统一般分为三个部分:构建知识库、问句检索、用户问句分析。本文主要对限定域问答系统的构建知识库及问句检索两部分进行了研究。本文构建知识库会涉及到三个方面:数据源的选择、知识的组织方式、自动化程度。本文通过调研,发现大多数研究工作在数据源的选择上,往往仅单独的考虑百科、问答社区、领域网站等。很少有考虑利用多个数据源建立知识库。此外,许多研究工作都是以本体为知识组织方式,然后根据特定领域,采用特定的方法构建特定的知识库。由于本体的特殊性,这种建立知识库的方法难以移植,一旦领域或者需求产生变化,那么需要重头开始构建知识库,过往的工作几乎不能复用。因此为了提高限定域问答系统构建知识库的自动化水平,本文提出了一个面向多数据源自动构建知识库的框架。该框架以领域网站、百科及问答社区多个数据源为知识来源,并以问答对为主要组织方式。由于本文基于领域术语来收集百科及问答社区两个知识源的特定领域语料,导致领域术语的精度将直接关乎到知识库的精度,所以本文对领域术语抽取工作也做了进一步研究,并对基于word2vec的术语抽取算法进行了改进。在检索方面,由于传统的限定域问句检索框架仅仅针对本地领域知识库进行检索,当无法找到合适的候选问句时,将对部分用户问句不处理,即出现“无回复”现象。为了缓解该问题,本文提出了结合领域知识库及多个在线问答社区的问句检索框架。此外,本文在改进后的限定域问句检索框架运行过程中,增添了自动扩充知识库的功能。以前面的研究工作为基础,本文提出一套基于微信平台搭建限定域问答系统的策略。该策略具有通用性,用户只需要按照说明文件进行配置,就能够快速搭建一个限定域问答系统。此外,本文的所有工作已经在github上开源,希望能为接下来的问答系统研究者们提供帮助。
其他文献
组播是下一代Internet应用的重要支撑技术,而组播的安全性是成功进行组通信所必需解决的重要课题之一。目前,人们已提出多种密钥管理方案,并采用不同的组密钥更新方案来处理
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随着具体生物问题的不同而蕴含着特定的语义需求。传统的搜索引擎如Google、百度等通用搜索引擎并不能够有
心脏是人体最重要的器官之一,作为心脏病的多发部位——心室,其生理病理特征的研究具有重要意义。心室中重要的传导系统,包括左、右希氏束支和浦肯野纤维,统称为浦肯野系统。受现
新浪微博目前是国内最大的微博服务平台,微博流中包含着数量众多的,各个领域的新闻事件。目前新浪上有各种各样的带标签的话题事件,已有很多的研究针对于微博上的话题检测,但
签名鉴别是一种,新兴的基于生物特征的身份识别技术,由于其方便、可靠、从笔迹中提取信息不侵犯隐私而被人们普遍接受,在商务、金融、司法、保险等众多领域中有着广泛的应用,
模式分类问题广泛存在于故障诊断、语音识别、机器视觉、文本检索、图像处理和生物信息学等应用领域。在获取分类任务的相关数据信息以后,模式分类的主要目标是利用模式分类算
乳腺癌是目前世界上发病率和死亡率较高的疾病,严重威胁人类的健康。早期诊断,早期治疗是提高乳腺癌患者生存率的主要手段。目前,乳腺癌诊断的主要方法是通过X光图像、CT、核
随着软件系统应用范围的日趋广泛,我们的日常生活越来越依赖应用软件所提供的服务,目前软件已经应用于航空航天、核电技术、军事、电子机械、金融等许多重要的特殊工程领域,
在信息爆炸的时代,互联网已经成为了信息传播非常重要的载体之一。随着时间的积累,互联网成为了一个庞大而又复杂的信息仓库,简单的浏览、检索已经不能满足人们的需求。人们
随着计算机软硬件水平的不断提高,互联网的迅速普及,多媒体的应用越来越广泛,同时,多媒体音视频的质量也有了大幅度的提高,用户对多媒体处理软件的要求越来越高。本文开发了