基于BI-LSTM-CRF模型的知识库自动问答方法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:book_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的搜索引擎以关键字组合的方式进行检索,返回一系列相关网页,需要用户进行多次筛选才能获得需要的答案。知识库问答系统融合了信息检索(Information Retrieval,IR)和自然语言处理(Natural Language Processing,NLP)等技术的优点,以自然语言问句作为输入,输出简洁、准确的自然语言答案,更能满足当代人快速、准确获取信息的需求。对现有的知识库问答系统进行分析,发现英文领域的开放知识库问答系统不仅支持单一关系问答,还支持多关系问答。在中文领域,目前的研究大都针对的是单一关系问答,多关系问答还处于探索阶段。本文基于NLPCC-ICCPOL 2016提供的知识库对中文领域的多关系问答方法进行探索,将知识库问答分为实体识别、实体关系抽取和答案检索三个子任务,本文围绕这三个子任务展开工作,具体内容如下:(1)基于BI-LSTM-CRF(Bi-direction Long Short-Term Memory Conditional Random Field)模型的实体识别、链接与消歧。针对自然语言问句中实体的多样性,首先引入BI-LSTM-CRF模型学习问句中实体与周围词语的关系,训练出一个实体识别模型来识别问句中的实体;然后通过相似度计算、查询实体映射表的方式将实体与知识库中的术语进行链接,得到实体对应的术语集合;最后通过综合相似度计算和实体流行度的方式对候选实体进行消歧,消除实体链接后可能产生的冗余。(2)基于词性特征与位置特征的实体关系抽取。针对多关系问答中自然语言问句包含不止一个关系词的问题,本文首先提出了一种基于词性特征的关系词提取算法,从问句中获取候选关系词序列;然后通过相似度计算的方式将候选关系词序列与知识库中的谓词进行映射;最后,根据实体、关系、疑问代词之间的相对位置以及各自的数量,按照单一实体单一关系、单一实体多关系、多实体单一关系和多实体多关系这四种问句类型生成具有语义信息的三元组集合。(3)基于模板匹配的答案检索。针对三元组之间的关联关系,或三元组内部元素之间的关系,本文首先定义了五种模板,每个模板定义一种三元组类型与Cypher查询语句的映射规则;然后将实体关系抽取阶段生成的三元组集合与模板进行匹配,得到一系列查询语句;最后在知识库中进行检索,获得候选答案集合。采用NLPCC-ICCPOL 2016提供的数据集和多关系数据集NLPCC_MH进行对比实验,结果表明,本文提出的方法不仅能够支持单一关系问答,也能支持多关系问答,同时还能兼容选择型疑问句。
其他文献
随着互联网新业态的高速发展,越来越多的行业对于网络服务的稳定性提出了更高的要求。北京交通大学研发的多元化智融网络组件,利用智融标识网络架构思想将多种链路资源进行融合,实现了高稳定性、高质量的网络服务。然而,由于缺少必要的管理平台,多元化智融网络组件在使用过程中暴露出配置方式复杂,难以动态调整;型号众多,用户权限管理混乱;无法实时监测各个组件状态等问题。针对上述问题,本文在调查研究现有设备管理方式的
二氧化碳(CO2)是一种温室气体,但它也是重要的C1资源,具有低价、无毒等特点,以其为原料可以合成诸多有价值的化合物。在众多的转化利用方法中,CO2和环氧化合物反应生成环状碳酸
陶瓷类材料具有硬度高、耐高温、抗腐蚀等优良性能,在机械、航空航天、医疗等领域均有应用,对其需求也日益增强,促使陶瓷材料的加工朝着高质量和高效率的方向发展。然而,作为
在中国经济发展方式转型的关键时期,探求创新的空间结构及影响因素,有助于加强对我国技术创新发展规律的理解,促进创新政策的完善。为了解决以往研究中存在的可塑性面积单元
信任是当今心理学与社会学研究的热点问题,是各种组织环境中必不可少的协调机制,很多研究长期以来一直强调信任的积极影响。但是,如果没有把信任用对地方,信任也会功能失调,产生消极影响。因此,精准地将信任运用于各种社会组织环境对完成一项高质量的工作就显得尤为重要。但是,信任准确度的情境预测因素的探究非常有限。虽然许多研究在探究人际信任现象时主要关注特质水平预测因子,例如个体的广义信任倾向或受害者敏感性等,
通信工程和计算机技术的迅速发展将人类社会带入到了信息时代,数据库中存储的数据量也急剧增大,如何在海量数据中分析和获取有价值的知识成为人们日益关注的问题。文本聚类分析是信息数据挖掘的一个重要研究方向,可以直观地反映数据间的分布特点,更好地发现数据集中内在的类别特性。K-Means算法作为聚类分析算法中最为普遍应用的算法之一,尽管时间复杂度较低且易于实现,但在处理具有高维性和稀疏性的数据时,容易出现局
作为一种重要的有机化工中间体,二苯甲烷二异氰酸酯(MDI)广泛应用在聚氨酯(PU)、涂料、胶粘剂等行业。目前,MDI主要通过光气法生产。其原料光气剧毒且副产物HCl腐蚀性较强。
等离子体医学是等离子体与临床医学等学科相融合的新兴交叉领域,其中气相区活性氧和活性氮物种(Reactive Oxygen Species and Reactive Nitrogen Species,RONS)的原位定量诊断
在如今高速发展的科技时代中,机械臂在制造业、农业、医疗业等都得到了广泛的应用,与之相关的机械臂控制技术研究也自然成为了学者们着重关注的方向。为了完成任务,机械臂通常需要在给定的时间内精准地按照预定的轨迹运动,也因此轨迹跟踪问题成为了机械臂控制技术研究中关键的一点。外部干扰作为影响机械臂轨迹跟踪性能的主要因素,当其可以被检测到时,前馈方法可以很好地减弱干扰带来的影响。然而,外界干扰通常难以测量,所以
随着信息技术的高速发展,数据的规模呈现指数级别增长,如何从这些数据中发现潜在的、价值高的信息是目前数据挖掘领域面临的主要挑战。伴随着数据流的出现,针对数据流的挖掘