基于Spark的用户行为分析系统研究及实现

来源 :长江大学 | 被引量 : 5次 | 上传用户:chenchao198339
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的快速发展,网络用户数量快速增长,产生了大量的网络用户数据,这为互联网企业带来了机遇和挑战。一方面,对这些数据进行分析可让企业更了解用户,帮助企业及时做出正确的决策,从而为企业创造巨大的价值。另一方面,大规模的用户行为数据在存储、计算、分析以及应用等方面对互联网企业来说都是一个非常大的技术挑战,特别是面对短时间内产生的海量实时行为数据,一直以来都是大数据行业面临的难点。开源社区推出了许多值得关注的大数据分析平台,特别是大家所共知的由Apache所开发的分布式系统基础架构Hadoop。其两大核心组件HDFS分布式文件系统与MapReduce编程模型提供了海量数据的存储与计算功能,其在海量数据的存储与计算处理方面具有高容错、高可靠、低成本等优点,因此在企业中被广泛应用。但利用Hadoop处理海量数据,用户必须自己开发MapReduce程序,一方面,其编程难度大而备受诟病,另一方面,MapReduce也不能满足实时应用的需求。由加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架Spark,提供的核心组件既具有MapReduce的离线数据处理的功能,又具有实时海量数据处理的能力,编程难度较MapReduce小,相同数据量条件下处理速度快。本文以电商企业在大数据时代下的发展现状为背景,采用目前大数据领域最流行的Spark技术框架结合相关组件对电商网站产生的大量用户行为数据进行分析处理。本文主要工作及创新点包括如下方面:针对企业在大数据量的环境下所面临的困境,对用户行为分析系统所能采用的相关技术进行了调研,分析了目前Hadoop技术在大数据处理方面的不足,采用Spark技术来构建系统。对用户行为分析系统进行了需求分析,设计并实现了一种基于Spark的用户行为分析系统,详细阐述了各模块的设计思路,并在分布式集群的环境下进行编程实现,完成了包括用户行为数据的离线处理以及用户行为数据的实时在线处理功能模块,最后结合数据可视化技术将分析结果进行页面展示。设计与实现的用户行为分析系统,方便了企业管理者发现产品在营销、运营中可能存在的问题,使得企业的营销更加精准有效,解决了电商企业发展中遇到的业务痛点与技术难点。
其他文献
老子美学思想的核心价值观是自然,自然也是老子美学思想的最高法则。这种自然美学价值观立论于反对人类中心主义的文明社会价值观基础上,它主要表现在三个层面:一、以"道"为核心
自然资源统一确权登记是我国健全自然资源资产产权制度的一项重大改革举措。七部委联合印发的《自然资源统一确权登记办法(试行)》,为制定自然资源统一确权登记的工作机制、
鄂尔多斯盆地北部某铀成矿带是近10年发现的大型可地浸砂岩型铀成矿带,诸多生产和研究部门对其成矿地质条件、成矿环境、控矿因素与成矿远景进行了研究,取得了可喜的找矿成果。
松原市委、市政府提出创建以绿色农业为主导、生产生态生活融合发展、全国知名的绿色农业城的发展策略,以绿色农业发展,带动工业和第三产业实现绿色发展。如何建设好绿色农业
"龙头企业+农业协会"的合作机制是农业经济专业化、规模化发展以及建立和推广集体农产品品牌的重要模式。本文运用演化博弈理论,构建企业与协会的动态非对称演化博弈模型,并
为了厘清我国教学评价研究的发展脉络,运用CiteSpace软件绘制近20年来我国教学评价研究热点和研究前沿的知识图谱。结果表明:近20年来我国教学评价研究的热点主要有:教学评价
<正>欧盟委员会批准辉瑞托法替尼(Xeljanz)用于治疗银屑病性关节炎,从而显著扩大了该药物的适用范围。欧洲药品监管机构此次允许每天两次5mg的托法替尼与甲氨蝶呤合并用于治
<正>国土资源执法监察工作是国土资源管理工作的重要组成部分,也是"双保"工作当中"保红线"的必要保障。近年来,随着社会经济的发展和城市化进程的加快,建设用地激增导致对土
1997年7月1日香港回归后,体现“一国两制”创造性的《中华人民共和国香港特别行政区基本法》开始实施,至今二十年有余。其间,由于大陆法系和普通法系天然的分歧导致香港基本
轴流风机安装后导叶能明显改善性能,但用目前使用的二维理想的工程方法无法设计良好导叶,必须通过大量后导叶安装角试验,才能改进使用。本文提出轴流风机后导叶三维数值优化