论文部分内容阅读
随着移动互联网的快速发展以及智能手机的快速普及,越来越多的人们从线下购物转向了线上购物,因为线上商品相比线下实体店来说价格相对更加便宜,购买更方便,由此也催生了很多电商平台的飞速发展,比如拼多多靠着大量下沉市场的用户短短几年就做到了国内电商平台的第二名。在这竞争激烈的互联网电商平台背景下,电商企业如何抓住用户流量,提高用户粘性,增加自身的GMV,已经成了必须要考虑的问题。在当今的互联网时代,数据呈爆炸式的增长,数据的类型也多种多样,企业必须要能够从大量数据中去挖掘数据的价值。面对这样的机遇和挑战,搭建一个集海量数据采集、存储、计算、分析为一体的数据平台对于电商企业来说势在必行。本文首先分析了电商大数据的相关背景,然后分析了一些国内外公司所应用的数据分析平台中的框架和技术。接下来对本平台中用到的关键技术做了相关介绍和简单分析。最后结合目前大部分电商公司的普遍需求,提出了一套离线的电商数据仓库平台的概要设计,同时加入了自己的一些创新。再通过需求和概要设计对各个模块进行具体的设计和实现,主要分为数据采集模块,数据仓库和数据可视化模块这三个模块。数据采集模块主要负责采集用户的行为数据和业务数据,用户行为数据包括启动、页面、事件、曝光、错误这5类,业务数据包括订单相关的数据、用户相关的数据、商品相关的数据、活动相关的数据、地区相关的数据。数据仓库主要进行数据的清洗、建模、分析,整体分为了5层,分别是ODS层(原始数据层),DWD层(数据明细层),DWS层(数据服务层),DWT层(数据主题层),ADS层(数据应用层)。数据可视化模块主要是以ADS层结果数据为模板,在My SQL中创建相应的表,使用Sqoop工具定时将ADS层结果数据导出到My SQL中,并使用数据可视化工具对数据进行直观的展示。本平台采用Flume、Kafka、Sqoop作为数据采集工具,HDFS作为数据存储框架,Hive作为数据仓库工具,Spark作为Hive计算引擎,以目前大数据时代的电商企业数据分析需求为背景,搭建了一个全流程的电商大数据分析平台,涵盖数据采集、数据存储、数据分析、数据展示。三个模块都经过了功能性测试,并且运行良好,验证了此平台的实现与预期结果一致,应用在电商企业中的话能减少数据的重复开发,提高效率,并能通过各种指标的分析为企业运营决策提供帮助。