Spark与NoSQL数据库集成技术的研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：cao240

【摘要】

：

各行业应用数据规模的爆炸式增长,对传统数据计算技术和数据存储技术提出前所未有的挑战。Spark作为一款内存计算引擎,具有流处理、机器学习、图挖掘和结构化查询等多种计算

【作者】

：

李永亮

【出处】

：

国防科学技术大学

【发表日期】

：

2004年期

【关键词】

：

Spark NoSQL数据库集成大规模并行数据本地化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

各行业应用数据规模的爆炸式增长,对传统数据计算技术和数据存储技术提出前所未有的挑战。Spark作为一款内存计算引擎,具有流处理、机器学习、图挖掘和结构化查询等多种计算方式,被越来越多的组织机构选作数据挖掘平台。NoSQL数据库具有灵活的数据模型和出色的读写性能,被大范围应用于企业大规模数据的存储平台。然而,Spark未对NoSQL数据库提供如HDFS存储系统式的友好计算支持,业界关于应用Spark处理分布式存储系统的实践案例仅给出较少的个例化解决方案。如果用户出现新的数据处理需求且现有系统难以满足时,需要重新选取存储系统研究解决方案,从而提高应用数据的处理难度。Spark与NoSQL数据库的集成需要从技术上解决以下问题:1.如何实现Spark以分布式并行方式处理NoSQL数据库的数据。2.如何实现Spark尽可能以数据本地化方式计算NoSQL数据源的数据。针对以上问题,本文提出一种Spark和NoSQL数据库的集成框架,支持Spark基于数据本地化的方式并行计算NoSQL数据库的数据。本文的研究工作主要包括以下几个方面的内容:1.基于Spark数据计算机制和NoSQL数据库工作原理,提出一种Spark和NoSQL数据库的集成框架,支持Spark以数据本地化方式分布式并行处理NoSQL数据库的数据。这部分工作主要包括:1)深入分析应用Hadoop、Spark等数据分析引擎处理Cassandra、HBase等NoSQL数据库数据的实践案例;2)研究分布式存储数据源类型RDD的设计方式,并给出NoSQL数据集抽象为RDD的数据分片原则、数据本地化计算方式及分片计算方法;3)定义集成框架接口规范;4)基于Co-Located方式设计两类系统集成的部署架构。2.依据HBase数据存储模型,研究并给出Spark与HBase数据库应用集成框架实现系统集成的参考实例。这部分工作主要包括:1)HBase待处理数据集到RDD数据结构的转换研究;2)在Spark系统上增加对HBase数据库的计算支持模块并编程实现。3.通过参考实例的实验测试和分析得出:1)Spark能够以数据本地化方式分布式并行计算HBase数据;2)基于集成框架的集成方式性能显著好于一般处理方式;3)选择和投影请求下推到HBase服务器端的数据获取方式性能优于Spark自身的数据过滤方式。实验结果表明,本文提出的Spark与NoSQL数据库集成框架理论能够提高数据处理效率。

其他文献

基于并行化技术的web文本分类算法研究

随着信息技术的迅猛发展,网络上每时每刻都会产生大量的文本数据,传统的人工管理方法已无法满足社会的需求,所以快速高效的自动文本分类技术成为人们研究的热点。虽然文本分

学位

文本分类朴素贝叶斯网络文本卷积神经网络模型并行化

基于Protocol Buffers的眼视光监测系统的设计与实现

现今我国青少年儿童学习压力较大,且随着科技的发展,青少年儿童接触手机等电子产品的时间和频率大幅上涨。在此情况下,不良的用眼习惯会导致视力疲劳,而长期的视力疲劳容易导

学位

Protocol Buffers眼视光监测蓝牙4.0

NDN中基于汇聚点的缓存与转发研究

随着互联网的快速发展,多媒体分享和社交网络等基于内容的应用越来越多,互联网已经转变为一个使用各种工具和移动终端进行信息分享的分布式系统。人们关注的不再是内容在哪里

学位

命名数据网络基于汇聚点的缓存与转发机制隧道路由缓存

城市道路公交信号优先控制方法研究

随着城市机动车保有量的逐步攀升,尤其在早晚高峰时段,道路拥堵问题已经成为很多城市的痛点。因此,人们想到通过发展公共交通来解决城市拥堵问题,公交优先策略应运而生,但随着道路上优先的公交车辆越来越多不可避免会遇到多辆优先车辆同时发送优先请求的问题。为解决上述问题,本文建立了考虑多优先请求的公交信号优先模型,并在此基础之上将信号优先模型应用在城市干线上。本文的工作总结如下:(1)在信号交叉口处,提出了一

学位

公交优先优先请求冲突双向绿波协调控制VISSIM仿真

不同种类MAC协议的工作机制研究

无线传感器网络WSNs(Wireless Sensor Networks)的基本构成单位是传感器节点,规模有大有小,大至成千上万,小至几个节点。这些节点有时候随机部署在某个区域内,采用自组织方式

学位

无线传感网MAC协议同步S-MAC(Sensor-MAC)协议异步RI-MAC(Receiver Initiated-MAC)协议NS2 仿真

基于加密词袋模型的密文图像检索研究

数字成像设备的发展使得数字图像的数量激烈增长,基于内容的图像检索(Content-Based Image Retrieval,简称CBIR)方案被用于解决庞大图像库检索问题。CBIR方案对计算和存储开

学位

基于内容的图像检索词袋模型特征提取

干涉型双芯曲率光纤传感技术的研究

近年来,光纤传感器已经发展成为规模庞大的产业,被广泛的应用于国防安全、工业生产、信息传输、日常生活以及科学研究等领域,并发挥着日益重要的作用。光纤传感器之所以应用

学位

光纤曲率传感器双芯光纤模式干涉有限元法

基于能量采集技术的认知网络的仿真与应用

认知中继网络具有诸多优势,比如扩大信号覆盖范围、降低网络通信干扰、频谱资源利用率高等。然而,对于能量受限的认知中继网络,一旦中继节点的能量耗尽,借助其进行的信息传输

学位

认知中继网络能量采集中断概率解码转发多中继网络衰落信道

全局光照绘制中的蒙特卡罗采样与复用算法

面光源照射下的三维场景全局光照绘制是目前3D图形学中的重要研究课题之一。全局光照算法主要分为三类:光线跟踪算法,辐射度算法和光子映射算法。其中光线跟踪算法是目前较为

学位

全局光照光线跟踪可见性蒙特卡罗采样空间复用

基于MET振动传感器的二维定位技术研究

定位技术在军事及民用上运用广泛,例如用于战场地面探测的美国沙地直线系统,就是运用各类传感器收集声音、地震动等信号,在保证隐蔽性的前提下,实现了对入侵目标的探测、分类

学位

振动传感器地震动信号时延估计定位技术

Spark与NoSQL数据库集成技术的研究与实现

其他学术论文