基于容器的弹性流数据处理系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lzxkong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着实时数据处理需求不断被提出,流数据处理系统得到了学术界和工业界的广泛关注和研究。基于批处理模式的流数据处理系统是一类将流数据处理转换成连续批次作业的系统,近年来成为了新的研究热点。然而现有的基于批处理模式的流数据处理系统实际部署运行中会面临诸多问题。一方面,系统负载会处于动态变化中,而一般的资源分配方式是基于资源预留思想,以最大化资源配置来应对峰值负载。但用户往往难以提前预知峰值负载并准确做出最大化配置,无法保证系统性能,并且这种方式下欠载时会带来资源浪费。另一方面,系统面临负载不均衡时,少数节点任务执行缓慢会严重影响系统性能。基于容器的弹性流数据处理系统可以有效解决上述问题。系统充分利用容器的快速启动和灵活的资源管理机制,采用容器化运行方式来解决在虚拟机或物理机环境下资源扩展性较差的问题。系统通过采集运行时信息并分析当前集群的作业执行状态,结合负载特征设计实现了一种具有前瞻性的弹性资源调度方案。具体包括:自适应集群扩展机制,该机制会根据系统运行时信息对集群进行扩展,保证过载时系统的性能并减少欠载时的资源浪费;节点需求感知资源调度机制则会根据任务执行器节点的负载情况,重新调度节点CPU资源,从而避免传统基于负载数据重新划分的负载均衡带来的开销。实验结果表明,相比于Spark Streaming,在流数据负载变化的情况下,系统能够高效地实现集群扩展,保证系统过载时的性能并减少欠载时的资源消耗,并且可减少资源使用量达30%。面临负载不均衡问题时,系统能够减少批次作业处理时间。
其他文献
课本中的任意一道题目都是教材编写者精挑细选的结果,可以说,每一道题都是凝聚着编者的智慧和意图的“好蘑菇”,那么,它们的周围肯定会有更多的“好蘑菇”等待着我们去寻找.  人教A版教材必修1第二章复习参考题B组4:设f(x)=,g(x)=,求证:(1)[g(x)]2-[f(x)]2=1;(2)f(2x)=2f(x)g(x);(3)g(2x)=[f(x)]2+[g(x)]2.  变式1、可以判断函数f(
【热点材料】  2012年11月8日至14日,中国共产党第十八次全国代表大会在北京召开。大会的主题是:高举中国特色社会主义伟大旗帜,以邓小平理论、“三个代表”重要思想、科学发展观为指导,解放思想,改革开放,凝聚力量,攻坚克难,坚定不移沿着中国特色社会主义道路前进,为全面建成小康社会而奋斗。中共中央总书记胡锦涛向大会作了题为《坚定不移沿着中国特色社会主义道路前进 为全面建成小康社会而奋斗》的报告。报
湖北省兴山县毗邻神农架自然保护区,植被、地势和气候等生态条件独特。为揭示其蕴藏的大型担子菌物种多样性,2016年10月至2017年10月,在兴山县全境对大型担子菌的物种组成、
《行星地球》这一章内容,是历年高考的常考点,而且高考命制的试题新颖、灵活、难度大,往往是全卷的压轴题,很多老师在复习这一章内容时,没有透彻理解《考试大纲》考点,为了求全、求
随着西气东输二线、中亚等管道工程的开工,拉开了中国油气管道建设新一轮高潮的序幕,未来12年间,中国还将建设15万km的油气管道。