论文部分内容阅读
综合利用多种数据源进行智能分析、处理和挖掘,从而获取实时全面的科技情报信息是目前大数据环境下情报研究的发展趋势。然而,随着全球信息化的发展,科技信息数据的获取途径不断扩充,传统分散式的以信息检索为主的数据管理方式已经无法满足对海量多源异构科技信息数据进行深层次分析的需求。本体是语义网中解决语义问题的关键层次,可以作为一种新型的知识组织方式构建科技信息知识库。但是,通常使用的OWL文本文件和关系型数据库进行本体存储的方案存在存储模型和本体的图模型不匹配的问题,制约了海量本体数据的处理能力。本文旨在将本体技术应用到科技信息领域,设计并实现一种高效的可以存储海量数据的科技信息知识库管理系统,供科技情报人员使用。在对本体构建技术和本体存储技术的研究基础上,本文进行的研究工作有:(1)以论文、专利、基金等数据为载体,对斯坦福大学提出的本体构建七步法进行改进,提出使用决策七步法构建科技信息本体模型,确定了科技信息领域的核心概念和概念之间的关系,实现了术语的统一。(2)针对海量数据的存储问题,利用本体三元组到图数据库图结构的映射方法将科技信息本体存储到图数据库中。通过和Jena SDB+MySQL的存储方案相比较,使用图数据库Neo4j存储本体可以减少约35%的存储空间,降低约60%的查询时间。(3)对于图数据库原生不支持本体查询的问题,设计了基于图数据库的本体查询方法,利用邻接表保存查询图结构,采用深度优先遍历的方式转化为图查询路径,实现了本体查询到图数据库查询方式的转换。(4)基于构建的科技信息本体模型和研究的海量本体实例存储系统,设计并实现了科技信息知识库管理系统,知识库管理系统采用B/S架构实现,具备完整的知识管理功能、增强的知识查询功能、丰富的可视化功能和完善的用户管理功能,具有较高的安全性和较快的响应速度。