论文部分内容阅读
近年来,随着互联网技术的快速发展,网络用户数量快速增长,产生了大量的网络用户数据,这为互联网企业带来了机遇和挑战。一方面,对这些数据进行分析可让企业更了解用户,帮助企业及时做出正确的决策,从而为企业创造巨大的价值。另一方面,大规模的用户行为数据在存储、计算、分析以及应用等方面对互联网企业来说都是一个非常大的技术挑战,特别是面对短时间内产生的海量实时行为数据,一直以来都是大数据行业面临的难点。开源社区推出了许多值得关注的大数据分析平台,特别是大家所共知的由Apache所开发的分布式系统基础架构Hadoop。其两大核心组件HDFS分布式文件系统与MapReduce编程模型提供了海量数据的存储与计算功能,其在海量数据的存储与计算处理方面具有高容错、高可靠、低成本等优点,因此在企业中被广泛应用。但利用Hadoop处理海量数据,用户必须自己开发MapReduce程序,一方面,其编程难度大而备受诟病,另一方面,MapReduce也不能满足实时应用的需求。由加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架Spark,提供的核心组件既具有MapReduce的离线数据处理的功能,又具有实时海量数据处理的能力,编程难度较MapReduce小,相同数据量条件下处理速度快。本文以电商企业在大数据时代下的发展现状为背景,采用目前大数据领域最流行的Spark技术框架结合相关组件对电商网站产生的大量用户行为数据进行分析处理。本文主要工作及创新点包括如下方面:针对企业在大数据量的环境下所面临的困境,对用户行为分析系统所能采用的相关技术进行了调研,分析了目前Hadoop技术在大数据处理方面的不足,采用Spark技术来构建系统。对用户行为分析系统进行了需求分析,设计并实现了一种基于Spark的用户行为分析系统,详细阐述了各模块的设计思路,并在分布式集群的环境下进行编程实现,完成了包括用户行为数据的离线处理以及用户行为数据的实时在线处理功能模块,最后结合数据可视化技术将分析结果进行页面展示。设计与实现的用户行为分析系统,方便了企业管理者发现产品在营销、运营中可能存在的问题,使得企业的营销更加精准有效,解决了电商企业发展中遇到的业务痛点与技术难点。