基于Hadoop和Spark的可扩展性化工类大数据分析系统设计

来源 :粘接 | 被引量 : 0次 | 上传用户:liyanliang163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对易制毒化学品数据的海量增长问题,如何对这些数据进行分析,进而为易制毒化学品交易提供参考,是当前思考的重点。对此基于易制毒化学品海量增长的数据,结合Hadoop和Spark各自的优缺点,提出一种基于Hadoop+Spark的易制毒化学品数据分析系统。为实现该系统,首先采用Hadoop+Spark的框架对系统进行搭建;将系统功能模块分为数据分析模块、ETL模块、可视化模块3个主要模块,并对上述功能模块进行详细设计与实现;提出用于易制毒化学品价格预测的保序回归模型。最后搭建集群服务器和系统运行环境,运行上述预测模型,得到价格预测的误差值较小,能较准确预测易制毒化学品价格。
  关键词:Hadoop框架;易制毒化学品;大数据分析;保序回归模型
  中图分类号:TP311.13 文献标识码:A 文章编号:1001-5922(2021)06-0081-03
  Abstract:In view of the massive growth of precursor chemicals data, how to analyze these data and provide reference for precursor chemicals trading is the focus of current thinking. Based on the huge growth data of precursor chemicals, combined with the advantages and disadvantages of Hadoop and Spark, a data analysis system of precursor chemicals based on Hadoop + Spark is proposed. In order to realize the system, Hadoop + Spark framework is used to build the system; the system function module is divided into three main modules: data analysis module, ETL module and visualization module, and the above functional modules are designed and implemented in detail; the ordinal regression model for price prediction of precursor chemicals is proposed. Finally, the cluster server and system operating environment are built, and the above prediction model is run. The error value of price prediction is small, which can accurately predict the price of precursor chemicals.
  Key words:Hadoop framework; precursor chemicals; big data analysis; ordinal regression model
  要想對易制毒化学品交易过程进行多角度、全方位的监控,就必须对相关数据进行实时分析处理,包括实时采集、数据流缓存、数据处理等环节,可是,现有研究主要关注于数据采集和数据处理等工作,反而忽略了数据清洗、数据缓存、数据布局等内容,这在一定程度上影响了实时数据的分析处理效率及效果。对此,一是基于Hadoop平台进行实时数据的分析处理。在实操中,利用HDFS系统进行数据储存,利用Map Reduce工具对实时数据进行快速处理,这为数据流的高效处置提供了技术支持。但HDFS对于实时数据流的适应性差,Map Reduce在分析实时数据流的过程中可能出现数据丢失、分析延迟等问题,导致Hadoop系统对于实时数据的处理效能不佳。二是构建统一的云计算平台,它集成了Hadoop和Spark的应用优势,即Hadoop能够进行数据批量操作,Spark善于进行数据收集。因此,本研究结合两种并行处理框架的优势,对海量的化工类交易数据进行处理。
  1 系统整体架构设计
  本文系统选用Spark和HBase框架,引用Flume、Kafka等技术进行数据传输,能够对易制毒化学品交易数据进行采集及分析,并利用可视化工具来展示数据分析结果。系统整体架构展示,如图1所示。
  2 系统功能模块设计
  本文开发的易制毒化学品数据分析系统包含数据分析模块,ETL模块,可视化模块,等3个功能模块,这3个功能能够对易制毒化学品交易数据进行提取、存储及分析,从而为用户提供信息支持,包括化学品价格走势、化学品交易现状等。具体如图2所示。
  在图2的模块中,ETL模块是由数据采集子模块、数据转换子模块、数据存储子模块构成的,它整合了Spark Streaming、Kafka、Flume等多个组件,围绕用户的业务需求,利用Spark Streaming组件对交易数据进行筛选、转化等处理,最后将处理结果转存至HBase内。数据分析模块是由离线分析模块和实时分析模块构成的,前者从HBase中提取出历史交易数据,然后利用Spark ML对其进行模型训练,最终实现了价格预测的功能;后者遵循面向场景的原则,对ETL模块的处理数据进行更深层次的数据分析。
  3 功能模块详细设计
  3.1 ETL模块设计
  易制毒化学品数据分析系统不仅要处理传统事务性数据,而且对接于多种类型的数据源,在系统运作过程中面向大量的数据流。另外,出于现实应用的考虑,用户对于ETL模块的数据分析速度提出了更高要求,“准实时服务”已然成为ETL模块的设计目标。因此,将ETL模块分为数据采集,数据转换,数据存储,等3个子模块,具体技术架构如图3所示。   在抽取过程中,由数据采集模块对Oracle存储的易制毒化学品交易数据进行处理,Flume与Kafka对接,Spark Streaming直接对接于Kafka。Spark内置了针对不同数据源的reader,用于对接收到的数据流进行连接和采集,然后将它们发送至数据转換层,Spark内置了多样化的数据转换操作算子,尤其在Scala库的配合下,可以实现数据清洗、数据转换等功能。在完成数据格式转换以后,数据输出层内置的writer将转换后的数据传输至HBase。
  3.2 数据分析模块设计
  数据分析模块的主要功能是对ETL模块输出的数据信息进行分析和统计,这一过程并不会影响系统整体的运算效率,也不会对系统稳定性造成干扰。因此,本文在设计中,首先设定了实时数据统计分析的时间间隔,从而为用户提供具有时效性的当期统计结果。Spark Streaming是实时分析模块的内核,它集成了基于Scala语言的数据清洗、统计、转换等代码,能够对Kafka输出的实时数据流进行处理分析,并将分析结果经由maven传输给集群服务器,相关信息被存储于HBase内,可以为用户提供查询服务。具体步骤如图4所示。
  3.3 回归预测模型构建
  3.3.1 预测流程
  易制毒化学品数据分析系统具备短期预测和结果展示的功能。围绕价格预测的目标,首先调用ETL模块数据进行训练,然后将训练得到的结果存储在非结构化数据库中,以此为后续的查询等奠定基础。具体预测训练流程如图5所示。
  3.3.2 基于保序回归的预测模型构建
  保序回归指的是对单调函数空间内给定数据的回归分析过程,其优势在于拟合误差最小化。保序回归算法是:
  4 实验验证
  4.1 环境搭建与参数设置
  为验证回归预测算法的应用成效,通过试验的方式进行验证。在本次实验中,首先采集某市在2018.03.01~2018.12.31期间的丙酮交易数据,然后按照交易时间对原始数据集进行划分,包括3~12月、5~12月、7~12月、9~12月、10~12月、11~12月等6个批次,然后分批进行测试。另外,依据“80/20法则”,将前80%的数据集选做训练集,将后20%的数据集充当测试集。
  考虑到丙酮价格的整体走势是递减的,据此对保序回归模型进行参数设定,如表1所示。
  实验步骤如表2所示。
  本次实验是在3节点的分布式Spark集群环境下进行的,集群节点配置条件如表3所示。
  系统开发环境:Javal.8.0-172+Scala2.11.8+Spark2.2.0。
  4.2 仿真结果
  实验结果展示如图6所示。
  根据图6可知,相较于基于线性回归的价格预测模型和基于逻辑回归的价格预测模型,本文提出的基于保序回归的价格预测模型的评估结果MSE值更小,尤其在数据集数量不足的情况下,保序回归算法仍然能够实现较小的均方误差,这充分证明了本文模型的应用优势。
  5 结语
  通过上述的研究,文章搭建的大数据算法能很好的运行和利用当前的易制毒化学品数据,并能较好的预测易制毒化学品的价格,从而为更好的利用这些易制毒化学品交易数据提供了参考和建议。但本研究的设计还只是初步构建,更多系统功能还有待进一步完善。
  参考文献
  [1]刘昕林,邓巍,黄萍,等.基于Hadoop和Spark的可扩展性大数据分析系统设计[J].自动化与仪器仪表,2020(03):132-136.
  [2]陈彬.基于Hadoop框架的海量数据运营系统研究[J].自动化技术与应用,2020,39(03):178-181.
  [3]陈家宇,胡建军.MobiWay应用中基于Hadoop的多目标多任务调度算法[J].计算机应用与软件,2020,37(02):240-247.
  [4]韩德志,陈旭光,雷雨馨,等.基于Spark Streaming的实时数据分析系统及其应用[J]. 计算机应用,2017,37(05):1263-1269.
  [5]袁泉,常伟鹏.基于Hadoop平台的图书推荐服务Apriori优化算法[J].现代电子技术,2019,42(01):180-182.
  [6]李爽,陈瑞瑞,林楠.面向大数据挖掘的Hadoop框架K均值聚类算法[J].计算机工程与设计,2018,39(12):3734-3738.
  [7]晏依,徐苏.Hadoop环境下基于并行熵的FIUT算法挖掘[J].计算机工程与设计,2019,40(03):685-690+787.
  [8]华幸成.面向大数据处理的应用性能优化方法研究[D].杭州:浙江大学,2019.
  [9]尹旭熙.基于大数据分析技术的多源监控信息挖掘方法研究[J].电子设计工程,2020,28(17):52-55+60.
  [10]孙啸,李双琴,谢锐,等.基于大数据管理架构的油气管道数据监测分析模型[J].现代电子技术,2020,43(17):102-105.
其他文献
摘 要:碳纤维材料的主要特点为耐腐蚀、施工方便、强度高、质量轻,能够在不对既有结构使用造成影响时施工,所以在桥梁加固中被广泛使用。目前研究大部分为加固梁静载性能,缺乏对碳纤维布加固混凝土梁疲劳性能的研究。以此,本文就对碳纤维材料加固钢筋混凝土梁疲劳性能进行分析。  关键词:碳纤维;钢筋混凝土;疲劳测试  中图分类号:TQ342+.742;TU375 文献标识码:A 文章编号:1001-5922(2
摘 要:随着社会需求的增加,电力光缆网络规模持续扩大,网络层次和结构也越来越复杂,为电力通信光缆网健康状态维护工作带来了一定的挑战。常规的光缆网巡检维护只是在出现网络问题以后才展开事故排查,这种盲目的巡视管理模式效率低下,无法保证通信业务运行的稳定性。因此,文章基于不确定层次分析法,以影响光缆网健康状态的资源数据、环境数据、性能数据作为评估指标,通过量化处理和权重计算形成融合性的健康度模型,实现电
摘 要:在建筑、设备安装等需要高空作业的领域中使用高空作业车非常重要。如今随着高空作业车的频繁使用,其种类越来越多,其中蜘蛛式高空作业车具有优异的性能,如操作方便、灵活性好、工作区间大等,所以在实际生产和生活中使用频繁。蜘蛛式高空作业车需要具备非常高的安全性和稳定性,其中电气控制系统直接决定着高空作业车的稳定运行状况,所以对电气控制系统进行设计时需要考虑到其安全性和可靠性。PLC属于一种比较理想的
摘 要:硅酮胶产品作为一种被各行各业广泛使用的胶粘剂,已经得到了市场的认可。文章主要介绍了硅酮胶的发展概况、特点和主要成分,并对工业用硅酮胶的应用作出分析,并展望硅酮胶的发展前景。  关键词:硅酮胶;密封胶;粘接;固化原理  中图分类号:TQ436+.6 文献标识码:A 文章编号:1001-5922(2021)06-0021-04  Abstract:Silicone adhesive produ
摘 要:高分子复合材料的大量使用,极大地改善了传统足球运动中各项配套设备如草坪、足球、各种护具等的性能。文章以当前足球球皮材料中应用最为广泛的聚氨酯发泡材料为例,对足球运动中某一高分子复合材料的制备方法以及聚氨酯发泡材料的性能进行分析;通过合成一种无溶剂聚氨酯合成革,对传统聚氨酯材料在生产过程中使用有害溶剂所造成的环境破坏进行了有效控制,着重论述了无溶剂聚氨酯合成革不同相分离程度下的力学性能变化情
摘 要:由于鎂合金具有质量轻、强度大、消震性能好等优势,能够作为体育器械的制造材料,并且相比于传统的体育器械材料,镁合金能够提高器械的性能,有助于提高使用者的运动水平。所以镁合金在体育器械中具有非常广泛的应用。由于人类对体育器械性能要求不断提高,镁合金的性能也需要相应提高。文章对镁合金制备及其性能进行分析,通过对镁合金基材进行等离子熔覆处理,使用两种不同复合涂层,分别为TiB2-TiC:Al=2:
摘 要:篮球制作中将无溶剂聚氨酯环保材料作为首选材料,即满足篮球弹性性能,又能达到节能环保要求。文章对无溶剂聚氨酯材料应用进行解读;通过半预聚体、预聚体等方法探究无溶剂聚氨酯弹性体制备过程;分析无溶剂聚氨酯弹性体基本性能、力学性能、耐介质性能等。  关键词:无溶剂弹性体;篮球环保材料;半预聚体;预聚体  中图分类号:TU57 文献标识码:A 文章编号:1001-5922(2021)06-0053-
摘 要:传统美术设计方式的效率非常低,仅仅在绘制工作上就会花费比较多的时间,而且绘制的准确度也会比较低,对于一些复杂的美术作品通过手绘的方式很难得到非常好的表达。自从计算机技术的快速发展,将其应用到美术设计中,极大的提高了美术设计的效率和准确度,设计者将会有更多的时间花费在美术创作上,从而就会产生更加优秀的美术作品。为了提高美术设计的水平,文章主要研究计算机技术应用到美术设计中。首先对计算机技术的
摘 要:针对果树栽培中植物生长剂产品品种较少且缺乏创新的问题,本研究以N,N-二乙胺基乙醇为原料、二甲苯为溶剂、硫酸氧钛为催化剂,分别与丙二酸、丁二酸、富马酸反应合成了三羧酸循环类植物生长剂。通过以苹果种子和葡萄种子为研究对象,以DA-6溶液和蒸馏水为对照实验组,对本研究制备得到的三羧酸循环类植物生长剂对果树种子的萌发和生根进行了实验分析。结果表明,本研究制备的丙二酸双脂胺盐、丁二酸双脂胺盐、富马
摘 要:近些年,电网系统信息化的不断发展使得电力企业所使用的应用程序不断增多,也因此出现了多种数据模型,形成了异构数据库,但是要想加强对电力系统的运行决策就必须建立一个电力信息集成系统。文章介绍了电网智能WEB平台,包括其电力信息集成系统的结构构成、功能以及所应用的相关技术,电网智能WEB平台的建立,使得企業信息化水平大大提高,能够更大程度的实现数据信息的共享,同时数据的安全性也能够得到充分的保障