基于Hive的电商数据分析平台的实现与应用

来源 :汕头大学 | 被引量 : 0次 | 上传用户:liujmjm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展以及智能手机的快速普及,越来越多的人们从线下购物转向了线上购物,因为线上商品相比线下实体店来说价格相对更加便宜,购买更方便,由此也催生了很多电商平台的飞速发展,比如拼多多靠着大量下沉市场的用户短短几年就做到了国内电商平台的第二名。在这竞争激烈的互联网电商平台背景下,电商企业如何抓住用户流量,提高用户粘性,增加自身的GMV,已经成了必须要考虑的问题。在当今的互联网时代,数据呈爆炸式的增长,数据的类型也多种多样,企业必须要能够从大量数据中去挖掘数据的价值。面对这样的机遇和挑战,搭建一个集海量数据采集、存储、计算、分析为一体的数据平台对于电商企业来说势在必行。本文首先分析了电商大数据的相关背景,然后分析了一些国内外公司所应用的数据分析平台中的框架和技术。接下来对本平台中用到的关键技术做了相关介绍和简单分析。最后结合目前大部分电商公司的普遍需求,提出了一套离线的电商数据仓库平台的概要设计,同时加入了自己的一些创新。再通过需求和概要设计对各个模块进行具体的设计和实现,主要分为数据采集模块,数据仓库和数据可视化模块这三个模块。数据采集模块主要负责采集用户的行为数据和业务数据,用户行为数据包括启动、页面、事件、曝光、错误这5类,业务数据包括订单相关的数据、用户相关的数据、商品相关的数据、活动相关的数据、地区相关的数据。数据仓库主要进行数据的清洗、建模、分析,整体分为了5层,分别是ODS层(原始数据层),DWD层(数据明细层),DWS层(数据服务层),DWT层(数据主题层),ADS层(数据应用层)。数据可视化模块主要是以ADS层结果数据为模板,在My SQL中创建相应的表,使用Sqoop工具定时将ADS层结果数据导出到My SQL中,并使用数据可视化工具对数据进行直观的展示。本平台采用Flume、Kafka、Sqoop作为数据采集工具,HDFS作为数据存储框架,Hive作为数据仓库工具,Spark作为Hive计算引擎,以目前大数据时代的电商企业数据分析需求为背景,搭建了一个全流程的电商大数据分析平台,涵盖数据采集、数据存储、数据分析、数据展示。三个模块都经过了功能性测试,并且运行良好,验证了此平台的实现与预期结果一致,应用在电商企业中的话能减少数据的重复开发,提高效率,并能通过各种指标的分析为企业运营决策提供帮助。
其他文献
期刊
期刊
前所未有的狂热席卷了新能源汽车行业,但是,身处其中的人们又感受到比以往更强的危机感和焦虑感2021年,新能源汽车及其产业链上下游吸引了市场中的海量热钱与高度关注。巨头和创业者奔着新能源汽车的光明未来而来,坚决投入,前所未有的狂热席卷了这一行业。其背景是,新能源汽车渗透率逐月快速提升,这超过了很多人的预期。
期刊
监督是纪委的基本职责、第一职责,也是做好各项工作的重要基础;监督的关键在于及时发现问题、纠正偏差。作为企业纪委,只有主动适应新时代、新阶段、新要求,坚定政治方向、坚守政治原则、站稳政治立场,在强化日常监督上下功夫,与时俱进抓好纪律和作风建设,才能为"十四五"开好局起好步提供有力保障。本文立足日常监督中存在的问题和不足,提出了切实可行的措施和途径,希望能够对全面从严治党新形势下企业做实做细日常监督工
能量路由器是家庭区域能源网与电网之间能量接口的重要组成部分,本文针对一种交直流户用型能量路由器结构,研究设计实现分布式发电、储能系统、电网与负荷之间能量平衡的协调控制策略。为延长由蓄电池和超级电容组成的混合储能系统中蓄电池的使用寿命,设计模糊控制算法电源管理策略;采用改进的下垂控制策略,实现户用型能量路由器并网时的平滑切换,提高系统的鲁棒性。在Matlab/Simulink平台上搭建户用型能量路由
基于创新设计理念设计了一款淋浴辅助装置。该装置主要由滑轨固定架、固定支架、座椅固定架、绑带、升降装置和齿轮驱动装置等组成。其中:齿轮驱动装置采用二级齿轮传动;摇柄驱动一级小齿轮带动二级大齿轮,从而带动绳轮转动;绑带用于固定上身;升降装置通过绳索拉动沿直线滑轨上升,辅助老人站立。下降时,稍微借助人力,手动使升降装置沿直线滑轨下降。
钳嘴鹳(Anastomus oscitans)主要分布在东南亚的印度、尼泊尔、越南、巴基斯坦、孟加拉国、缅甸、泰国、柬埔寨、老挝国等国家。在中国境内钳嘴鹳最早于2006年10月在云南省大理洱源县西湖被发现,2010年10月~2012年6月又在广西壮族自治区的百色市龙井水库、云南省景谷县和景
期刊