面向DAG计算框架的增量计算关键技术研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户：justdoitterry

【摘要】

：

伴随信息时代的飞速发展,数据量的爆炸式增长以及计算机性能的飞越带领人们跨入到大数据的时代。面对种类庞杂且规模庞大的数据集,必须使用分布式计算框架才能够有效地进行处

【作者】

：

阚京

【出处】

：

北京工业大学

【发表日期】

：

2017年01期

【关键词】

：

分布式计算 DAG计算增量计算计算复用

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随信息时代的飞速发展,数据量的爆炸式增长以及计算机性能的飞越带领人们跨入到大数据的时代。面对种类庞杂且规模庞大的数据集,必须使用分布式计算框架才能够有效地进行处理,而以有向无环图(Directed Acyclic Graph,下简称DAG)模型作为作业逻辑关系编排方式的分布式计算框架就是目前最为流行的大数据计算解决方案之一。由于大数据通常以只增的方式进行数据集的更新,使得大数据在存储上通常都具备增量性。目前的DAG计算框架在对这样的数据集进行计算时仍存在诸多挑战。一是对欠缺增量的感知能力,使得数据增量后的重计算占用了过多的计算资源;二是缺少对可复用计算特别是相似计算的识别与复用。既有工作主要从应用算法层面和计算框架层面提出改进。从应用算法层面的改进仅适用特定的计算管线,无法以用户透明地方式进行优化;从计算框架层面的改进方法对数据和计算逻辑的要求较为苛刻。本文针对现存问题,通过引入间接复用以及算子裁剪的方式来对相似计算进行识别和处理,通过构建Cost Model实现了动态的缓存管理策略,从而在增加优化适用范围的同时,以用户透明的方式实现计算性能的提升。本文的主要贡献如下:(1)建立了DAG中直接复用与间接复用的识别模型。抽取了DAG计算框架中的可复用算子的特征,对直接复用与间接复用进行了分析与定义。通过该识别模型可以对DAG中的可复用部分进行识别。(2)设计并实现了DAG框架中的增量计算复用框架。本文在该框架中设计了基于DAG节点预处理、可复用计算的匹配和增量计算处理三步的增量计算复用流程。通过DAG中Filter算子的处理策略实现了Filter算子的模糊匹配与拆分机制;基于FQ-Tree的DAG可复用片段的匹配机制和增量计算处理策略实现了基于Filter算子的间接复用机制。(3)设计并实现了缓存管理机制。设计了基于Alluxio的多介质缓存存储策略。实现了基于FQ-Tree的缓存信息的维护策略及相关算法,使得缓存系统可以为算子的匹配与识别提供元信息。通过设计能够综合使用频次、复用类型以及时间相关度的Cost Model,使缓存系统可以权衡缓存块的收益。(4)设计并执行了一系列性能测评实验。通过以合理的混合比例随机产生的计算负载进行系统性能测评,在同等计算环境及计算负载条件下,本文提出的DAG增量计算复用框架使计算任务的平均计算时间减少了32.49%.

其他文献

基于分类效用的无参数聚类算法及其改进研究

由于大多数现有的聚类方法都没有考虑类别的层次结构以及用户的分类角度,得到的聚类结果对用户来说往往不易理解,并且这些方法都需要用户输入一些敏感的参数,使得聚类的质量

学位

基本层次类别分类效用无参数可视化ECU

地下水污染抽出—处理中浓度拖尾与反弹数值模拟研究

随着经济的发展,地下水有机污染问题日益严重。抽出-处理是目前常用的地下水污染控制与修复技术,在抽出-处理过程中,常会出现浓度的拖尾和反弹现象。拖尾和反弹现象的存在会

学位

四氯化碳地下水污染抽出-处理拖尾与反弹数值模拟

武夷山黄山松凋落物分解的研究

植物生长发育过程中新陈代谢的产物为凋落物,包括植物的落叶、枯枝、死根等。凋落物分解是植物和土壤之间物质循环和养分动态平衡的中间环节,是森林,特别是高山森林生态系统

学位

凋落物分解速率养分释放规律海拔梯度黄山松武夷山

基于超疏水和热改性技术的杨木尺寸稳定化研究

木材作为四大原材料之一,是一种可再生、可循环利用和可自然降解的绿色环境友好材料。然而,我国原生优质森林资源严重匮乏,速生人工林木材虽量大,却材质差、易变形,难以满足

学位

杨木尺寸稳定性超疏水真空热改性压缩木

“绑定中测试”测试流程对于测试成本的影响

随着半导体工艺水平的不断发展,3D SICs(3D stacked integrated circuits,三维堆叠集成电路)技术已成为一大研究热点,它将各部分功能电路进行垂直的堆叠,并通过互连线进行绑

学位

三维堆叠集成电路绑定中测试“多绑一测”丢弃成本绑定次序

片上网络中链路容错技术和通信方法研究

片上网络作为一种新的片上多核互连通信架构的解决方案,突破了传统基于总线结构多核互连系统的瓶颈问题。然而,链路作为路由器之间连接的关键数据通路,由于软错误、线间串扰

学位

片上网络容错无线片上网络拥塞维度感知

一种超低功耗低压差线性稳压器的研究与设计

便携式电子设备随着电子与通信技术的飞速发展得以普及,电源管理技术因此得到广泛关注。通过对电源管理市场及其发展趋势的研究发现,低压差线性稳压器(Low Dropout Regulator,LDO)作为电源管理市场的重要一员,因为简单的电路结构,较小的芯片面积、高电源抑制比(Power Supply Rejection Ratio,PSRR)、优良的稳定性、低噪声、低功耗以及可高度集成于电源管理单元(

学位

超低功耗高精度线性稳压器稳定性瞬态响应

县级信息中心民生资源管理平台建设研究

民生问题一直是人民群众生活关系最密切的问题,是构建和谐社会、国家长治久安的根本。要从根本上解决我国当前民生问题,必须要加快体制改革和创新,构建完善有效的社会管理体

学位

信息交换资源管理J2EE数据挖据

“绑定中测试”影响下的3D芯片扫描链优化设计

随着工艺技术水平的不断提升,单个芯片上集成的器件单元数量急剧增加,芯片面积不断增大。单元间连线的增长既影响工作速度又占用大量面积,严重影响集成电路集成度和速度的进

学位

绑定中测试故障覆盖率扫描链均衡协同优化芯核分层布图

阿拉善盟社会事业公共服务信息平台信息查询系统

我国正在进入公共服务需求快速发展的新阶段,社会事业公共服务涉及到人们生活的方方面面,加快社会事业发展,提高公共服务水平,既是保障和改善民生的现实需要,又是实现全面协

学位

java信息查询系统需求分析模块设计数据库

面向DAG计算框架的增量计算关键技术研究

其他学术论文