论文部分内容阅读
面向科技咨询的知识图谱构建与管理平台是为领域专家、科技咨询专家和知识图谱研究人员提供的,从结构化、半结构化、非结构化数据源中获取高质量知识体系的工具。该平台应具备以下三个特性:构建流程的各环节衔接顺畅,全生命周期工程化;以大数据技术融合海量、多源、异构的领域数据,以人工智能技术驱动大规模知识获取,平衡自动化方式与人工方式的矛盾;可操作性强,实现多领域复用。目前知识图谱相关产品虽然取得了一些显著成果,但仍存在领域数据层次化不明确且跨域连接难、准确性与效率难以兼顾、构建全流程各环节分散且知识挖掘不充分等问题与挑战:1)传统的跨数据库扫描方式已逐渐无法适用于海量、多源、异构数据的知识获取与分析需求;2)领域知识图谱构建面临着准确性与效率之间的矛盾,自顶向下方法保证了知识的准确性,但过程繁琐、知识规模受限,自底向上方法适用于大规模知识获取,但图谱结构松散、缺乏严格的模式约束;3)现有平台的各步骤需要投入大量的时间与人力,以完成分散环节的衔接。针对上述问题与挑战,本文重点围绕科技咨询大数据统一信息模型、领域知识图谱本体和数据的构建方法、面向科技咨询的知识图谱构建与管理平台的设计与实现等开展研究,主要内容分为以下三项:1)设计并实现了一套面向数据跨域融合的“主题化—层级化—关联化”的科技咨询大数据统一信息模型。以横向主题域划分、纵向多层次建模、业务标签组织关联的方式,打通了当前科技咨询领域的多主题、多来源、异构数据,为科技咨询领域资源体系标准规范的制定提供了依据;同时,对于其他领域的数据资源统一管理与本体建模产生了一定的参考价值。2)设计并实现了一种基于混合模式的领域知识图谱本体和数据的构建方法。以自顶向下的人工过程为主线,定义本体的标签概念层级体系和关系集合,保证了领域知识图谱的专业性;以自底向上的数据驱动过程为辅线,借助自然语言处理模型获取知识,实现了图谱规模在本体框架的严格约束下扩展。3)设计并实现了松耦合模式、可自由编排任务流的领域知识图谱构建与管理平台。通过“大数据平台+AI开放平台+知识图谱平台”三者互相支撑,平衡了自动化流程与人工参与的关系,提高了现有资源的利用率,增强了平台的环节流畅性和拓展复用能力。最后,该平台应用于国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,在科技咨询背景下构建了人工智能、大数据、量子通信等九个前沿领域的技术链和产业链知识图谱,验证了本文理论方法及平台的有效性与实际应用价值。