论文部分内容阅读
在移动互联时代,随着“以人为本”服务理念的深入人心,数字化校园正逐步过渡到智慧校园,校园信息化正从传统的管理型向服务型转变。本文以智慧校园方面的研发与应用实践为背景,解决自主研发的校园智能问答系统WisQA中知识库的自动构建技术关键问题,以校园领域规章制度和办事指南文档为数据源进行知识提取,自动生成语义标签,构建基于层次多标签的校园智能问答知识库。本文主要研究工作如下:(1)提出了领域知识图谱和基于层次多标签的问答知识库相结合的知识库结构。针对校园领域规章制度和办事指南文档词汇特点,提出基于HowNet通用语义语言类本体人工构建领域知识图谱的方案,解决了领域专有名词及其语义关系的识别问题。(2)结合规章制度和办事指南文档的词汇分布、短语结构和句子特征,提出基于卷积神经网络的文档分类算法,解决了事实类和流程类的二类文档分类问题,为后续两类文档的知识提取奠定了基础。(3)针对事实类文档,提出基于表格映射规则的表头层次解析方案,解决了嵌套表格中知识单元的抽取和标签列表构造问题。针对流程类文档,提出基于文档结构的XML文档标记算法,实现了文档的切分和标记。在此基础上,提出基于XML文档的信息抽取算法,以及结合文档标题结构和LDA主题模型的语义标注算法,解决了纯文本中知识单元和标签列表构造问题。(4)定义校园服务类问答所需的服务API的描述和注册规范,解决了服务API描述文档到知识库中服务语义标签节点、服务API参数信息节点和服务API访问入口节点的自动转化问题,将校园服务类问答所需的服务API调用,统一为层次多标签知识库中的知识条目。(5)基于上述研究,构建层次多标签知识库实例。通过多个问答实例,定性分析其相较于基于关键字匹配的文档检索型知识库在校园智能问答领域的优势。定义知识单元完备性以及标签与知识单元匹配度两个指标,通过实验定量分析知识库在实际问答应用场景下的性能表现。实验结果表明本文解决方案是有效的。