基于层次多标签的智能问答知识库自动构建技术研究

来源 :东南大学 | 被引量 : 2次 | 上传用户:luocai1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动互联时代,随着“以人为本”服务理念的深入人心,数字化校园正逐步过渡到智慧校园,校园信息化正从传统的管理型向服务型转变。本文以智慧校园方面的研发与应用实践为背景,解决自主研发的校园智能问答系统WisQA中知识库的自动构建技术关键问题,以校园领域规章制度和办事指南文档为数据源进行知识提取,自动生成语义标签,构建基于层次多标签的校园智能问答知识库。本文主要研究工作如下:(1)提出了领域知识图谱和基于层次多标签的问答知识库相结合的知识库结构。针对校园领域规章制度和办事指南文档词汇特点,提出基于HowNet通用语义语言类本体人工构建领域知识图谱的方案,解决了领域专有名词及其语义关系的识别问题。(2)结合规章制度和办事指南文档的词汇分布、短语结构和句子特征,提出基于卷积神经网络的文档分类算法,解决了事实类和流程类的二类文档分类问题,为后续两类文档的知识提取奠定了基础。(3)针对事实类文档,提出基于表格映射规则的表头层次解析方案,解决了嵌套表格中知识单元的抽取和标签列表构造问题。针对流程类文档,提出基于文档结构的XML文档标记算法,实现了文档的切分和标记。在此基础上,提出基于XML文档的信息抽取算法,以及结合文档标题结构和LDA主题模型的语义标注算法,解决了纯文本中知识单元和标签列表构造问题。(4)定义校园服务类问答所需的服务API的描述和注册规范,解决了服务API描述文档到知识库中服务语义标签节点、服务API参数信息节点和服务API访问入口节点的自动转化问题,将校园服务类问答所需的服务API调用,统一为层次多标签知识库中的知识条目。(5)基于上述研究,构建层次多标签知识库实例。通过多个问答实例,定性分析其相较于基于关键字匹配的文档检索型知识库在校园智能问答领域的优势。定义知识单元完备性以及标签与知识单元匹配度两个指标,通过实验定量分析知识库在实际问答应用场景下的性能表现。实验结果表明本文解决方案是有效的。
其他文献
本文从介绍心电信号特点入手,论述了心电信号采集电路必须满足的要求,设计了一种采用了低成本、低功耗、高性能的单片机C8051F020,配合仪用放大器AD620和运算放大电路以及通信模
简述了阜康矿区地层及岩性特征,对在矿区煤层气勘探过程中所应用的微泡泥浆的配方及性能进行了介绍,说明了该泥浆的应用效果及应用过程中存在的问题。针对存在的问题,提出了
目的:比较白内障超声乳化手术中复方电解质液和乳酸林格氏液对角膜功能的影响,为临床选择适宜的灌注液提供科学依据。方法:收集老年性白内障患者随机分为以乳酸林格氏液为前房
2014年,中国旅游业实现平稳增长,三大旅游市场呈现"两升一降"的局面,国内游出游人数和旅游收入双增长,出境旅游增长迅猛,入境游规模总体下降,但国际旅游外汇收入依然实现增长
乳腺癌作为威胁女性健康最为常见的恶性肿瘤之一,其发病率在中国上升趋势明显。乳腺癌细胞的生长特性是:能无限生长、具有转化和转移能力。因此对乳腺癌进行增殖、转移等作用
工程质量是在工程实施过程中形成的,任何环节的疏漏都有可能造成质量隐患。。本文就如何提高市政道路工程质量提出主要对策和措施。
习近平总书记在今年视察北京大学时指出要把立德树人作为检验学校一切工作的根本标准,将师德师风作为评价教师队伍素质的第一标准。师德是教师的灵魂,育人是教师的本分。教育的
报纸