基于Hadoop的Web日志数据分析系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：hulichu

【摘要】

：

随着Internet的快速发展,越来越多的企业搭建了属于它们自己的各种各样的业务系统,社会高度信息化,网络数据规模日渐庞大,Web成为迄今为止全球最大的信息仓库。无论是政府、

【作者】

：

刘常伟

【出处】

：

哈尔滨工业大学

【发表日期】

：

2017年期

【关键词】

：

Web日志数据挖掘离线数据 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展,越来越多的企业搭建了属于它们自己的各种各样的业务系统,社会高度信息化,网络数据规模日渐庞大,Web成为迄今为止全球最大的信息仓库。无论是政府、企业还是个人都面临如何处理大量Web数据的难题。公司传统的日志分析就是工作人员进入服务器利用vim工具和一些命令或者Shell脚本统计得出一些信息,速度慢,也无法从日志中直观显示日志数据背后的信息,于是如何高效的从公司网站数据中挖掘出潜在价值并转化为决策依据,便具有重大意义。然而由于数据的产生速率和规模越来越大,数据处理技术将迎接更大的挑战,公司传统的日志分析模式在存储空间、效率以及用户交互上已经无法满足现实中的需求。为了提高日志分析的存储能力和计算效率,便于用户交互,本文提出了基于Hadoop的分布式解决方案并研究设计完成了基于Hadoop的Web日志数据挖掘分析系统。论文在以下几个方面进行了研究:(1)本文从Web日志挖掘的背景出发,探索了目前国内外在数据挖掘方面的常用方法和方向。(2)详细分析了Web日志数据挖掘分析系统三个子系统的功能性需求,基于需求主要研究了用于保存数据分析结果的MySQL表的结构。最后分别分析实现了三个分析子系统:数据收集系统使用Flume收集数据存入HDFS;数据分析系统基于Hadoop框架先将收集的离线数据清洗导入My SQL,之后MapReduce程序和Hive脚本分析HBase表中数据并将结果存入MySQL;数据展示系统基于Spring和MyBatis框架将数据以图表的形式展示出来。(3)将Hadoop组件、Spring框架有机的组合起来,Map Reduce程序和Hive脚本发挥各自的作用和性能分析不同的功能模块,Oozie工作流将MapReduce程序和Hive脚本集成并设置定时任务执行,Spring、My Batis和High Chart组合形成新的Spring MVC框架。(4)分析了传统CART算法的不足,改进了CART算法对于数据集中属性内、属性间Gini系数的计算方式以及CCP剪枝算法中表面误差率增益值的计算方式,实现了一种并行化的CART算法。(5)完成了各个功能模块的单元测试、系统的集成测试以及MapReduce和Hive脚本在Hadoop集群上执行任务的性能测试。结果表明分析系统可靠、高效、具有良好的交互性能。最终的研究成果是一个完整的的从数据收集到展示分析结果的基于Hadoop的分布式Web日志数据挖掘分析系统,该系统提供了支持运维大数据分析的基础框架、分析结果查询的API接口和交互界面。

其他文献

中式高档菜肴高汤标准化生产工程技术

<正>技术简介中式高档菜肴,如鸡汁海参、鲍鱼、鱼翅及佛跳墙等是中式菜肴中最有代表性的高档类菜肴。其用料种类繁多,操作工艺繁杂,费工费时,且需要娴熟的烹饪技巧,一般家庭

期刊

佛跳墙标准化生产

沙地种草养鹅生态模式的研究

沙地种草养鹅生态模式的研究邢廷铣，方热军，胡民强，陈惠萍，谭支良，何烈华（中国科学院长沙农业现代化研究所，４１０１２５）ＡｎＥｃｏ－ＭｏｄｅｌｏｆＧｒａｓｓＣｕｌｔｉｖｎｔｉｏｎａｎｄＧｏｏｓｅＲｅａｒｉｎｇｏｎＳａｎｄｙＬａｎｄｓ．￥ＸｉｎｇＴｉｎ...

期刊

grass cultivation and goose rearingceo-modelsandy land.

4 k IP技术发展现状及IP化标准的统一

本文对4 k IP技术发展情况作简要分析,探讨SMPTE 2022标准修改建议,认为ST2110标准是未来实现IP化的统一标准。同时,分析EBU欧广联对IP架构进程的预测情况。

期刊

4 k IP技术发展现状标准

急性心肌梗死合并2型糖尿病患者血清PCSK9的水平变化及其与HbAlc、Hs-CRP的相关性分析

目的:观察前蛋白转化酶枯草溶菌素9(PCSK9)在急性心肌梗死合并2型糖尿病患者中的水平,并探讨其与血糖控制水平、炎症反应之间的关系。方法:选取急性心肌梗死合并2型糖尿病患

学位

前蛋白转化酶枯草溶菌素9急性心肌梗死糖尿病高敏C反应蛋白Gensini评分

试论《楚辞》对《诗经》的继承和发展

最早指出《离骚》与《诗经》承传关系的,是汉武帝时的刘安。他认为:“国风好色而不淫,小雅怨诽而不乱,若《离骚》者,可谓兼之矣。”(班固《离骚序》引)连对屈原颇有微词的班

期刊

主题表达语言形式浪漫主义神话体系

试论学校危机管理机制的建立

近年来,有关学校危机事件的报道频出,建立并逐步完善学校危机管理制度已经越来越引起人们的重视。文章拟就学校危机管理的内涵、现状、原则及机制的建立进行简要论述。

期刊

学校危机管理机制

基于哈佛框架下的格力电器财务报表分析

近年来,随着我国经济的持续高速增长,许多国有家电企业越来越突出,并在国际中占有一定的地位。家庭电器作为生活中一项必不可少的产品,逐渐推陈出新,掀起了一股产业竞争热潮

学位

哈佛分析框架格力电器财务分析空调行业

从《警察与赞美诗》看“欧·亨利风格”

本文从近年来国内对欧·亨利代表作《警察与赞美诗》研究中存在的问题入手,剖析欧.亨利小说的主题和创作特点。欧.亨利的作品之所以精彩,不是因为他对于创作手法和写作技巧的

期刊

苏比小人物真实性欧.亨利风格

挤搓式玉米脱粒机的研制

为了解决我国长期以来存在的种子玉米脱粒损失量大的问题 ,该文介绍了一种利用挤搓原理的 ,宽板齿、低转速脱粒滚筒、栅格式凹板结构的玉米脱粒机的设计方法。该系列脱粒机的

期刊

挤搓原理玉米脱粒机结构设计

我国工厂化农业企业经济效益影响因素分析

工厂化农业是我国农业现代化的发展方向 ,如何有效的提高工厂化农业企业的经济效益是工厂化农业快速发展的关键。该文在对工厂化农业企业综合经济效益介绍的基础上 ,比较分析

期刊

工厂化农业企业工厂化农业经济效益

基于Hadoop的Web日志数据分析系统的设计与实现

其他学术论文