基于Spark的分布式流计算系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liuzufang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着实时ETL、复杂实时事件处理(CEP)以及实时统计分析等实时场景不断增多,为流计算的发展奠定了基础。上一代Hadoop生态的数据处理系统大多是针对离线计算场景,其系统设计已经无法应付实时计算的业务。所以论文提供了专门针对实时场景的基于Spark的流计算系统,该系统能满足大多数的实时场景,已经在多个生产环境得到应用。论文实现了基于Spark的分布式流计算系统,该系统以Spark任务调度引擎、执行引擎为基础,在中间层开发了针对实时ETL和实时数据统计分析的算子,如流和流的JOIN算子、流和大表的JOIN(Global Lookup Join)算子、流和小表的Join算子(Map Join)、Group By算子以及Order By算子等。同时系统还开发了专门处理复杂事件的CEP(Complex Event Processing)算子。为了能保证这些算子在分布式环境做到7*24小时连续运行,专门开发了基于分布式快照的分布式容错系统。在维护大量流任务的集群上,集群状态监控对集群运行至关重要,为了能把系统内部状态提供给第三方监控可视化系统或者Studio(流计算引擎自带应用开发工具及监控工具)等,专门开发了一套任务指标和状态监控系统,该系统同时支持Akka API、Restful API及Report三种方式对外提供指标和状态。论文从业务场景、系统设计目标、系统架构设计、以及系统详细实现等几个方面对上述模块的设计和开发做了详细的介绍。通过对系统进行严格的功能测试和性能测试,证明了系统的功能均正常,性能也能满足日常业务需求,符合系统最初的设计目标。通过本系统能让客户只需要使用SQL就能开发流计算应用,简化了流计算任务的开发流程,提高了开发效率。
其他文献
枯草芽孢杆菌(Bacillus subtilis,B.subtilis)是一类可产生内生孢子的革兰氏阳性细菌,属于食品安全级微生物(GRAS)。目前,已被广泛应用于食品发酵、家禽饲料、医疗卫生及农业生产中。B.subtilis发酵的酱香制品备受人们青睐。但迄今为止,对于B.subtilis发酵产酱香风味的机制研究仍然不清。实验室前期通过对中温(45℃)、中低温(37℃)条件下的B.subtilis
目的:了解扬州市发生新冠肺炎期间,普通病房护士投身到疫情重症监护病房(ICU)时的心理健康状况,以便采取针对性干预措施,为后续疫情防控护理工作提供参考价值。方法:应用质性研究方法,在扬州市新冠肺炎定点医院重症监护病房选取了14名普通病房护士进行半结构访谈,以Colaizzi 7步法整理分析访谈内容,了解其心理感受。结果:一线普通病房护士的心理感受可以归纳为3个主题:使命与责任感、工作负荷重和压力大
随着计算机视觉以及人工智能等技术的迅速发展,尤其在进入5G时代以后,室内智能移动机器人逐渐被广泛应用到诸如家庭护理、仓储物流、酒店服务等领域,而作为智能移动机器人实现自主导航与路径规划的关键技术,基于RGB-D的视觉同时定位与地图构建(visual Simultaneous Localization and Mapping,vSLAM)在工业界和学术界广受关注。传统vSLAM基于环境是静态刚体这一
大肠杆菌是存在于人和动物肠道的一种条件致病菌,在一定情况下会产生致病性,致病性大肠杆菌是导致仔猪发生疾病的主要病原菌之一,常引起仔猪发生腹泻,已严重影响了我国养猪产业的发展,造成了巨大的经济损失。本研究以本实验室分离自仔猪腹泻的五株大肠杆菌P211、P111、P555、P444、P32和购自中国微生物菌种保藏中心的两株菌株S10670、E24190为研究对象,通过小鼠感染实验鉴别菌株的致病力,并对
自贸试验区作为我国全面深化改革、扩大开放,营造高水平自由化及公平竞争营商环境的重要举措,其制定部分产业补贴政策在具体措施方面存在违反世界贸易组织中《补贴和反补贴措施协议》(以下简称“《SCM协议》”)关于补贴规则的情形或者潜在风险。鉴于此,我国自贸试验区中有违规风险的产业补贴政策会使我国在世界多边贸易中处于不利的处境。因此,自贸试验区中产业补贴政策与《SCM协议》的合规性已经成为我国在多边贸易中面
烟草是一种对光照和温度要求都非常严格的喜光喜温作物,为了降低烟草品种对光照和温度的敏感性,扩大烟草品种的光温适应范围和种植区域。本研究克隆了烟草光敏色素(NtPHYs)基因,采用生物信息学分析的方法预测了NtPHYs基因在烟草上的功能,利用CRISPR/Cas9基因编辑技术创制了基因敲除突变体,分析了NtPHYs基因对烟株生长以及对烟草种子和烟苗光温敏感性的影响。主要结果如下:1.推测烟草NtPH
凤仙花属(Impatiens)种类繁多,具有花形奇特、花色绚丽丰富、花期长、适应性强等特点,是优秀的野生观赏植物种质资源。中国是凤仙花属植物分布中心之一,拥有极其丰富的野生凤仙花属植物资源,而贵州是该属在中国的主要集中分布地区之一,但至今未有较全面的凤仙花属植物资料,许多凤仙花几乎处于野生状态,其观赏价值长期没有得到系统的研究和开发利用。本研究对贵州野生凤仙花属植物种质资源和地理分布格局进行了调查
绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)是性价比高于功率MOS和BJT的高压大功率半导体器件,目前在中、大功率应用场合被广泛使用。由于其在开态时对漂移区具有电导调制效应,这类器件能够同时实现高耐压和低导通损耗。但是,IGBT器件在关断时漂移区中存在少数载流子的反抽和复合过程,会导致关断能量损耗较高。所以,改善正向导通电压和关断能量损耗之间的
光纤激光器由于其本身具有的多种优势,被广泛运用于切割,焊接,熔覆等加工制造领域,同时,各领域需求的增加也促使其输出功率被不断提高。然而,这也随之引发了一系列的问题,一方面,光纤包层中将产生过多的残余光,影响了输出光束质量,甚至损害激光器,另一方面,输出光纤端面的功率密度过高,造成输出端面的烧毁。为了解决上述问题,常在激光器输出端加装传能光缆组件,用来滤除包层中的残余光,同时降低输出端的光功率密度。
数控机床加工过程的智能监控是高端装备智能化的关键技术之一。它不仅能减少因加工异常而造成的零件、刀具和机床的损坏,而且可以通过自动调节加工参数、对机床进行远程集中监控管理以提高生产和管理效率。随着制造企业向智能制造不断转型升级,其对数控机床加工过程监控系统功能的丰富性、性能的实时性和可靠性提出了更高的要求。基于此,本文开发了一套基于边缘计算的可用于多场景、开放式、实时性和可靠性较强的数控机床加工过程