论文部分内容阅读
随着移动互联网的快速发展,数据爆炸式增长,数据已经逐渐成为与自然资源、人力资源一样重要的战略资源,掌控数据资源的能力是国家数字主权的体现。大数据研究和应用是现代产业升级与新产业崛起的重要推动力量,如果落后就意味着失守战略性新兴产业的制高点。大数据也正在引发科学思维与研究方法的一场革命。地质工作是一个国家经济、社会发展所必须的基础性、先行性工作,而地质资料是广大地质工作者历经千辛万苦所得到的工作成果的重要体现。地质资料是地质信息的主要组成部分,是国民经济建设和社会可持续发展非常重要的基础性信息资源。基于此,国土资源部地质信息技术重点实验室根据地质数据和业务特点,设计并搭建地质大数据平台,探求和研究大数据技术在地质行业的应用,本文结合地质数据特点及实验室现有硬件资源,设计并搭建基于Oracle架构的实验室大数据环境。该大数据平台总体框架分为:设施层、平台层和服务层,分别提供虚拟化硬件设备、数据库高可用平台和Web服务等功能。根据业务和功能又具体划分为硬件虚拟化单元(Oracle VM)、数据库高可用环境单元(Oracle RAC)、空间信息管理环境单元(Oracle Spitial)、Hadoop(HDFS/NoSQL)、网络应用服务单元(WebLogic)和空间数据发布服务单元(MapBuilder),主要研究工作如下:(1)研究了Openfiler开源存储软件,从底层划分存储空间,在存储之上,安装部署Oracle VM虚拟化管理软件,充分利用现有硬件资源。(2)研究在结构化数据库(Oracle)与非结构化数据库(Hadoop)之间布设大数据连接器,解决结构化与非结构化数据之间的无缝集成。(3)研究ORACLE SPATIAL空间数据引擎,解决地质空间数据的存储、管理和分析问题。(4)分别从两个方面研究平台应用系统的负载均衡,一是利用Oracle RAC及Oracle ASM在平台存储层负载均衡,二是在Web应用服务器上部署WebLogic群集对业务请求进行分流,从而保证系统在高负载下正常运行。(5)研究并部署Hadoop开源软件,利用HDFS和MapReduce机制,分布式存储和计算挖掘地质数据。(6)研究“智能网关内容管理系统”解决对数据量较大的地质信息的访问效率问题,它能够自动适应管理内容类型,从而分块读取存储内容,让用户第一时间预览到所要查询的内容。最后,为了对大数据技术更加充分的理解,也为了地质信息化工作积累经验,更为了测试大数据平台的管理和计算能力,从非结构化内容Web访问、遥感影像数据管理共享和地质大数据挖掘三个方面做应用研究。从这三个应用中,我们可以得出该平台具备结构化、非结构化数据以及大规模空间数据的管理和组织能力,具备高可用、高响应能力,具备分布式、并行处理的计算能力,具备实时迁移和灾备的能力。