论文部分内容阅读
在数字经济时代,随着移动互联网与智能设备不断地融进人们的生活,人们每天在工作和娱乐的过程中会产生大量日志数据,这些日志数据作为一种重要的资源,极具挖掘分析的价值。比如在运营APP时,除了通过广告等渠道拉取新用户之外,公司还采用了日志数据分析的手段,向用户提供精准服务,从而实现每日活跃用户量的提升。然而,面对海量且多样化的日志数据,现有的大数据技术在其应用方面依然存在着不足之处,致使企业不能更好地利用数据解决运营问题。本文基于上述的背景,主要开展了如下的研究工作:首先,研究现有的大数据框架以对大数据平台的架构和部署方案进行设计,同时完成非Hadoop生态组件集成Ambari的脚本开发,并基于Ambari实现大数据平台的搭建。另外,以实习期间获取的游戏日志数据作为数据源,使用大数据平台对其进行解析和处理,并作为本文的实验数据集。其次,针对游戏业务的特点分别从用户的基本属性和行为属性两方面构建画像指标体系,并通过Click House画像模块计算画像指标以获得个体画像信息。另外,通过对画像信息进行统计分析,可以了解用户的性别分布、年龄分布、Top10的手机品牌及SDK版本号的使用分布、高频活跃时间段分布和最大连续登录天数分布等情况。再次,基于传统的RFM模型在国内外学术中的应用情况,结合游戏业务的特点提出RFMD模型,并通过对比实验确定适合于本实验数据集的聚类算法和簇数(K值),结果表明当K为5时KMeans算法的聚类效果最好且符合业务要求。结合RFMD模型和KMeans算法将用户划分为VIP级游戏玩家、高级游戏玩家、中级游戏玩家、初级游戏玩家和低级游戏玩家五类,并通过详细地分析获得群体画像信息和提出相应的挽留策略,实现用户运营。最后,设计性能对比实验,研究大数据机器学习算法库Spark ML和Alink中聚类算法的性能,结果表明:(1)在部分数据集中,Alink的KMeans算法在RANDOM模式下的性能略高于Spark ML的KMeans算法性能,且两者的平均消耗时间之比最高约为1.14倍。(2)Alink的高斯混合模型(GMM)和Bisecting KMeans算法的性能都高于Spark ML中对应算法的性能,且平均消耗时间之比最高分别可达1.86倍和3.6倍。综上所述,本文比较详细地阐述了大数据平台的开发和搭建流程,并基于大数据平台对游戏日志数据进行用户行为分析和研究,这能给不同场景下的日志数据挖掘分析和应用带来一定的借鉴意义。另外,本文还对当前热门的大数据机器学习算法库的性能进行对比研究,希望能给予同行们一定的参考价值。