基于大数据平台的日志数据分析与研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:mo114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字经济时代,随着移动互联网与智能设备不断地融进人们的生活,人们每天在工作和娱乐的过程中会产生大量日志数据,这些日志数据作为一种重要的资源,极具挖掘分析的价值。比如在运营APP时,除了通过广告等渠道拉取新用户之外,公司还采用了日志数据分析的手段,向用户提供精准服务,从而实现每日活跃用户量的提升。然而,面对海量且多样化的日志数据,现有的大数据技术在其应用方面依然存在着不足之处,致使企业不能更好地利用数据解决运营问题。本文基于上述的背景,主要开展了如下的研究工作:首先,研究现有的大数据框架以对大数据平台的架构和部署方案进行设计,同时完成非Hadoop生态组件集成Ambari的脚本开发,并基于Ambari实现大数据平台的搭建。另外,以实习期间获取的游戏日志数据作为数据源,使用大数据平台对其进行解析和处理,并作为本文的实验数据集。其次,针对游戏业务的特点分别从用户的基本属性和行为属性两方面构建画像指标体系,并通过Click House画像模块计算画像指标以获得个体画像信息。另外,通过对画像信息进行统计分析,可以了解用户的性别分布、年龄分布、Top10的手机品牌及SDK版本号的使用分布、高频活跃时间段分布和最大连续登录天数分布等情况。再次,基于传统的RFM模型在国内外学术中的应用情况,结合游戏业务的特点提出RFMD模型,并通过对比实验确定适合于本实验数据集的聚类算法和簇数(K值),结果表明当K为5时KMeans算法的聚类效果最好且符合业务要求。结合RFMD模型和KMeans算法将用户划分为VIP级游戏玩家、高级游戏玩家、中级游戏玩家、初级游戏玩家和低级游戏玩家五类,并通过详细地分析获得群体画像信息和提出相应的挽留策略,实现用户运营。最后,设计性能对比实验,研究大数据机器学习算法库Spark ML和Alink中聚类算法的性能,结果表明:(1)在部分数据集中,Alink的KMeans算法在RANDOM模式下的性能略高于Spark ML的KMeans算法性能,且两者的平均消耗时间之比最高约为1.14倍。(2)Alink的高斯混合模型(GMM)和Bisecting KMeans算法的性能都高于Spark ML中对应算法的性能,且平均消耗时间之比最高分别可达1.86倍和3.6倍。综上所述,本文比较详细地阐述了大数据平台的开发和搭建流程,并基于大数据平台对游戏日志数据进行用户行为分析和研究,这能给不同场景下的日志数据挖掘分析和应用带来一定的借鉴意义。另外,本文还对当前热门的大数据机器学习算法库的性能进行对比研究,希望能给予同行们一定的参考价值。
其他文献
学位
近年来,我国政府加大对创业企业的扶持力度,改善创业环境,我国创业企业的发展进入空前阶段。但企业发展阶段资金不足,需要引入新资本,然而新加入资本往往也会造成公司创始人股份被稀释,控制权被分流,更有可能控制权最终易主。许多创始人认为企业是自己的所有物,自己是企业的所有者,而引进的新投资只是资金提供者或未来经济利益获取者。这意味着未来许多企业可能会在引入外部资本时与新投资方发生摩擦,进而引发控制权争夺。
学位
学位
学位
学位
学位
21世纪,是大数据的时代,机器学习和数据挖掘广泛应用在零售、医疗以及交通等众多领域。随着Hadoop和Spark等大数据存储平台的逐渐成熟,各零售企业的业务数据及客户数据的存储已不成问题,如何分析和挖掘这些数据,使其转化成有价值能为公司带来收益的信息,对各个企业来说都是一个挑战。在“新零售”的环境下,各零售企业之间的竞争转为数据竞争,转为技术竞争。大数据及其相关技术有效推进了零售业的发展。商品销量
学位
随着人们的生活水平越来越好,家电行业市场特别是空调行业,仍在快速发展,家电龙头企业的的市场占比越来越高,制造工厂的产量和效率面临跨越提升的压力。空调生产过程中重要的出厂安全检测项目,属于防触电保护的电气强度、接地电阻、绝缘电阻、泄漏电流等项目,是最基本、最重要的安全检测项目,都必须进行在线全数检验。而当前行业上主要以人工检测的手段,存在对操作员工的安全隐患、工作效率低,且随着产量的增加,生产线速的