基于大数据与机器学习的Web日志分析系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:suibianyidianyaoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网Web技术的快速发展,互联网的用户人数在成指数型级别增长。在互联网服务用户的同时,产生了海量的Web日志信息,这些信息构成了大量的数据,隐藏着庞大的商业资源和利用价值。同时,呈爆炸式的用户人群在浏览互联网Web页面时,通过自身的经验与搜索去主动查询自己所需的资料,往往在繁琐的操作后得不到想要的目标,好像湮没在这海量的信息之中。因此,大数据技术与数据挖掘在很大程度上解决此问题。本文基于大数据技术与数据挖掘技术,研究内容主要有以下几个方面:对大数据和分布式技术进行了研究。主要深入的研究了Hadoop/Spark大数据平台。Google公司在大数据时代引领了潮流,其开发的大数据分布式平台Hadoop已经生成了完整的生态系统,得到了广泛的应用,其中MapReduce(MR)编程模型与HDFS最为常用。Spark是UC Berkeley AMP 1ab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的的算法。对基于深度学习的n1p/Word2Vec算法技术衍生的预测模型进行了研究。首先,word2vec算法可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。在日志挖掘过程中,我们可以选择利用其组成的会话序列探究各个日志的相似性。对于具体的会话序列的生成方法和序列中上下文的选择、训练方法,本文在研究了相关的词频加权算法之后,在word2vec的基础上做了改进,从而具备了对每个日志有相似性运算与结论预测的理论基础。对于基于Spark/HDFS的日志分析平台进行了详细的设计。根据对相关大数据分布式平台与算法的深入学习与研究,本文将涉及一个基于Spark/HDFS的日志挖掘与分析平台。该平台的组成模块有以下几个:日志预处理模块,日志存储模块,日志挖掘模块。日志预处理模块采用Spark平台实现;日志存储模块使用Hadoop中的HDFS实现。日志挖掘模块采用改进后的Word2Vec算法进行实现,由于是分布式处理,对算法流程设计使其能在分布式平台运行。最后对基于大数据平台的Web日志分析平台进行功能与性能的测试,通过对单机系统以及其他模型的对比,证明了该系统在处理大数据量的Web日志方面具有优势。
其他文献
引言改革开放以来,经济环境的变化速度远超过去,伴随着信息技术的发展,各种新名词层出不穷,如信息化、数字化、物联网、虚拟现实等,这些新的技术名词反映了经济环境的变化。
会议
随着社会经济和工业的不断发展,国内对于危险化学品的需求不断增多,危险化学品仓储企业的数量也在不断的加大。作为危险化学品运输中的重要环节,危险化学品仓储企业在危险化学品的运输中占据了重要的地位。近年来,国内关于危险化学品仓储转运的事故不断增多。同时,受危险化学品特征的使然,危险化学品在储运过程中一旦发生事故,那么将会对人民的生命财产和环境带来的极大的威胁。因此,在当前的背景下,分析危险化学品仓储企业
砂土是一种典型的颗粒材料,它的各向异性可由材料内部的孔隙方向分布来定量衡量。本文结合图像分析与三维重建技术提出了基于三维重建的虚拟剖切方法,对颗粒材料内部的孔隙方
可编程逻辑控制器(Programmable Logic Controller,PLC)程序易遭受篡改攻击而导致系统违背安全状态,甚至造成物理设备的破坏。当前,PLC代码的安全主要依赖于工程师对代码缺陷
工业可编程逻辑控制器广泛应用于工业生产中,一旦攻击者利用其存在的漏洞攻击成功,轻则会造成生产中断给企业带来经济损失,严重地还会造成人员伤亡。因此,如何快速挖掘工业可编程逻辑控制器存在的漏洞,提高其安全性,正逐渐成为安全研究人员的研究热点。为了更加快速的挖掘工业可编程逻辑控制器存在的漏洞,本文提出了一种基于工控协议模糊测试的工控漏洞挖掘方法,通过向被测PLC发送经过专门构造的畸形数据包来挖掘PLC存
2013年的汉诺威工业博览会上德国代表团首次提出工业4.0这一概念,此后世界各国相继出台相关国家战略,以物联网为基础的产业智能化开始深入人心。所谓工业4.0指代的是第四次工业革命,是利用信息化技术促进产业变革的一次革命,在这一国际背景下,我国开始加快水文水资源数据化建设,通过完善国家整体抗洪防洪预警系统以及水文水资源综合管理系统,对国家整体水资源调控、水利工程管理以及信息化起到了巨大的推动作用,加
多肽骨架酰胺-Ⅰ带通常在中红外区形成一个宽吸收带,该振动吸收带具有二级结构敏感性,被作为一种有效的结构探针广泛用于蛋白质结构检测。探究多肽动态结构特性对理解其构象
背景:冠心病(coronary heart disease,CHD)的传统治疗方法虽可暂时缓解病痛和改善生活质量,却无法使梗死的心肌修复再生,而干细胞具备的组织再生和多向分化潜能为IHD的治疗带
随着“执行难”,一方或多方当事人对执行工作有着不同程度的异议,对法院和执行法官的工作方式也产生了不满情绪。由于这些负面情绪,涉诉信访中涉执信访案件的比重逐渐增大。
导电材料表面毛化技术是在导电材料表面加工工艺的基础上发展而来,是表面加工技术的重要组成部分。在国外工业技术发达的国家,尤其是欧洲的一些汽车工业强国,因为车身的板材