分布式流处理系统中的任务调度

来源 :山东大学 | 被引量 : 0次 | 上传用户:PIPI16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据处理技术的不断发展,分布式流处理系统也在越来越多的数据处理应用中发挥作用。云计算的飞速发展也使得许多中小企业和研究人员能够通过租用的形式享受集群带来的数据处理的快速和便捷,也使得流处理技术发挥出更大的应用价值。而如何对流处理任务进行分配调度是分布式流处理系统中的一个重要问题。目前流处理平台上有许多不同的调度算法,这些调度算法主要关注如何提高作业的吞吐量或降低作业延迟。在有限的分布式流处理集群中,集群资源通常是固定的,如果其容纳的流处理任务越多,则集群的资源利用率便越高,所带来的价值越大。因此如何最大化集群中可运行的流处理业务的数量,也是一个重要的问题。由于流处理任务是持续不断运行的,在运行过程中,其处理的数据的速率通常会随时间变化。如果能够根据流处理作业的负载,动态对其组件进行调整,便可减少其对整体集群的资源占用。基于如上思路,本文首先对现有流处理系统的调度算法进行阐述和比较,并重点关注如下调度问题:在满足流处理任务运行情况的同时,如何调度才能最小化其所占用的资源?本文基于按需分配的思想,结合流处理自身的特点,提出了 MRU调度算法。该算法基于通用的流数据处理抽象,可较容易地应用于当前的流数据处理系统中。算法首先对流处理任务拓扑结构进行分析,基于分析结果对任务进行初始分配;在流处理任务运行过程中,对其进行状态收集,并基于历史数据对数据量和资源占用进行预测;且依据排队理论,对流处理数据的平均计算时间进行估算,并依此对分配方案进行动态调整。随后,我们对提出的一系列算法进行了复杂度分析。随后,本文基于Storm分布式流处理平台,给出了实现的系统架构。基于该系统架构,我们实现了本文提出的算法,并实现了 MRU-Naive算法作为参照。实验使用这两种算法与Storm默认的静态调度算法进行对比和分析。结果表明MRU算法能够较好的处理变化的数据流,对减少流处理任务的资源占用有显著的效果。
其他文献
由于Web服务遍布世界各地,因此Web攻击数量在迅速增加。近年来,各种Web攻击事件,比如SQL注入攻击、网站扫描攻击等频繁出现,Web安全问题引起了大家的广泛关注和讨论。Web访问
近些年,人们满足自身信息需求的方式发生了深刻变化。例如,移动设备如今无处不在。据报道,人们在移动端的搜索量已经超过了 PC端的搜索量。我们在本文中主要研究多种交互模式
近年来,随着互联网的迅速发展,人们萌发了使用互联网收看电视的想法。而机顶盒(STB)作为一种集计算机、电视和电信技术为一体的高科技产品,正逐渐将电脑的功能集成到了电视,成为
无线Ad-Hoc网络是由一组带有无线通信收发设备的移动节点组成的多跳、临时、无中心的自治系统,是一种不需要基础设施、可以在任何地点任何时刻迅速构建的移动自组织网络。网络
气象数值预报,是一个与科技民生息息相关的领域,随着气象卫星技术的不断进步,得到的资料也越来越丰富,气象数值预报也从依赖专业人员的经验,转而利用各类图像处理技术,使结果
即时通信(Instant Messaging, IM)系统是随着Internet发展起来的一种网络应用系统,人们通过它可以方便快捷的进行实时交流,如在线交谈、传递文件、及视频会议等。随着移动互
动作捕捉数据具有冗杂度高、数量级大、特征维度高等特点,使得动作捕捉数据在检索时耗费时间较长。本文提出一种基于哈希学习的高效编码和快速检索算法以达到在大规模动作捕
随着社会的不断发展,工业制造水平的不断提高,工业制造目标已经不仅仅是大批量的标准化的工业零部件,而更多是小批量富有个性的生活用品和艺术品。比如最近火热的3D打印技术,
随着嵌入式技术的不断发展,嵌入式系统被应用到了社会的各个领域。加载和引导操作系统内核、开发相关设备驱动、固化软件等是嵌入式系统开发的首要任务。板级支持包(Board Sup
大规模地形及森林绘制一直是虚拟现实领域应用较多的两个方向,而且也一直是图形学研究领域的两个热点。另外,大规模地形绘制与大规模森林绘制在模型表示及绘制算法上有一定的