基于Hadoop的Web日志数据分析系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hulichu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,越来越多的企业搭建了属于它们自己的各种各样的业务系统,社会高度信息化,网络数据规模日渐庞大,Web成为迄今为止全球最大的信息仓库。无论是政府、企业还是个人都面临如何处理大量Web数据的难题。公司传统的日志分析就是工作人员进入服务器利用vim工具和一些命令或者Shell脚本统计得出一些信息,速度慢,也无法从日志中直观显示日志数据背后的信息,于是如何高效的从公司网站数据中挖掘出潜在价值并转化为决策依据,便具有重大意义。然而由于数据的产生速率和规模越来越大,数据处理技术将迎接更大的挑战,公司传统的日志分析模式在存储空间、效率以及用户交互上已经无法满足现实中的需求。为了提高日志分析的存储能力和计算效率,便于用户交互,本文提出了基于Hadoop的分布式解决方案并研究设计完成了基于Hadoop的Web日志数据挖掘分析系统。论文在以下几个方面进行了研究:(1)本文从Web日志挖掘的背景出发,探索了目前国内外在数据挖掘方面的常用方法和方向。(2)详细分析了Web日志数据挖掘分析系统三个子系统的功能性需求,基于需求主要研究了用于保存数据分析结果的MySQL表的结构。最后分别分析实现了三个分析子系统:数据收集系统使用Flume收集数据存入HDFS;数据分析系统基于Hadoop框架先将收集的离线数据清洗导入My SQL,之后MapReduce程序和Hive脚本分析HBase表中数据并将结果存入MySQL;数据展示系统基于Spring和MyBatis框架将数据以图表的形式展示出来。(3)将Hadoop组件、Spring框架有机的组合起来,Map Reduce程序和Hive脚本发挥各自的作用和性能分析不同的功能模块,Oozie工作流将MapReduce程序和Hive脚本集成并设置定时任务执行,Spring、My Batis和High Chart组合形成新的Spring MVC框架。(4)分析了传统CART算法的不足,改进了CART算法对于数据集中属性内、属性间Gini系数的计算方式以及CCP剪枝算法中表面误差率增益值的计算方式,实现了一种并行化的CART算法。(5)完成了各个功能模块的单元测试、系统的集成测试以及MapReduce和Hive脚本在Hadoop集群上执行任务的性能测试。结果表明分析系统可靠、高效、具有良好的交互性能。最终的研究成果是一个完整的的从数据收集到展示分析结果的基于Hadoop的分布式Web日志数据挖掘分析系统,该系统提供了支持运维大数据分析的基础框架、分析结果查询的API接口和交互界面。
其他文献
<正>技术简介中式高档菜肴,如鸡汁海参、鲍鱼、鱼翅及佛跳墙等是中式菜肴中最有代表性的高档类菜肴。其用料种类繁多,操作工艺繁杂,费工费时,且需要娴熟的烹饪技巧,一般家庭
沙地种草养鹅生态模式的研究邢廷铣,方热军,胡民强,陈惠萍,谭支良,何烈华(中国科学院长沙农业现代化研究所,410125)AnEco-ModelofGrassCultivntionandGooseRearingonSandyLands.¥XingTin...
本文对4 k IP技术发展情况作简要分析,探讨SMPTE 2022标准修改建议,认为ST2110标准是未来实现IP化的统一标准。同时,分析EBU欧广联对IP架构进程的预测情况。
目的:观察前蛋白转化酶枯草溶菌素9(PCSK9)在急性心肌梗死合并2型糖尿病患者中的水平,并探讨其与血糖控制水平、炎症反应之间的关系。方法:选取急性心肌梗死合并2型糖尿病患
最早指出《离骚》与《诗经》承传关系的,是汉武帝时的刘安。他认为:“国风好色而不淫,小雅怨诽而不乱,若《离骚》者,可谓兼之矣。”(班固《离骚序》引)连对屈原颇有微词的班
近年来,有关学校危机事件的报道频出,建立并逐步完善学校危机管理制度已经越来越引起人们的重视。文章拟就学校危机管理的内涵、现状、原则及机制的建立进行简要论述。
近年来,随着我国经济的持续高速增长,许多国有家电企业越来越突出,并在国际中占有一定的地位。家庭电器作为生活中一项必不可少的产品,逐渐推陈出新,掀起了一股产业竞争热潮
本文从近年来国内对欧·亨利代表作《警察与赞美诗》研究中存在的问题入手,剖析欧.亨利小说的主题和创作特点。欧.亨利的作品之所以精彩,不是因为他对于创作手法和写作技巧的
为了解决我国长期以来存在的种子玉米脱粒损失量大的问题 ,该文介绍了一种利用挤搓原理的 ,宽板齿、低转速脱粒滚筒、栅格式凹板结构的玉米脱粒机的设计方法。该系列脱粒机的
工厂化农业是我国农业现代化的发展方向 ,如何有效的提高工厂化农业企业的经济效益是工厂化农业快速发展的关键。该文在对工厂化农业企业综合经济效益介绍的基础上 ,比较分析