基于序列模式挖掘的Hadoop日志预测与故障分析系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wqcfirst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是目前最流行的大数据存储与计算平台,具有廉价,稳定,易扩展等特点。尽管Hadoop应用很广,Hadoop的错误与故障诊断却仍然依靠人的经验。实际上错误与故障信息就隐藏在日志当中,但从日志排查错误是一个大工作量的辛苦任务,同时Hadoop系统间的差异也导致了经验的不通用。本文设计并实现了一个Hadoop日志预测与故障诊断系统,尝试解决上述问题。本文工作围绕设计实现日志预测与故障诊断展开,将日志数据抽象为时间序列数据。首先设计了一套日志类库辅助开发者输出日志,接着使用Map Reduce对数据进行预处理,构造索引结构。我们使用基于带时间约束的频繁序列模式挖掘方法和基于带罚项比特打分的规则划分方法来产生预测规则,并构造日志预测器,同时使用索引结构对频繁序列模式挖掘算法进行了优化。使用特征motif进行故障日志分类,提出了基于motif匹配的类别打分公式,提出了motif挖掘算法。针对常用的时间约束序列模式匹配算法,提出了基于动态规划的新匹配算法。同时针对频繁序列模式挖掘,规则产生,motif挖掘设计实现了相应的Map Reduce算法,使得系统可以处理海量数据。
其他文献
鉴于三维人脸模型在影视动漫、广告宣传、安全认证以及医学科学等众多领域的广泛应用,如何有效获取三维人脸模型显得尤为重要。通过先进的仪器设备直接获取人脸三维数据以及
随着互联网的迅猛发展,网上的信息以指数级的速度增长。用户很难在短时间内找到自己感兴趣的产品或信息。为了解决“信息过载问题”,个性化推荐系统应运而生,它是根据用户的
社区卫生服务体系建设是我国现阶段和今后医疗卫生工作的主导方向,居民电子健康档案的规范与标准相继出台,以社区为端口的城市居民电子健康档案数据库中保存了大量的统计数据
随着科学技术的发展和不断进步,物联网迅速兴起并成为当今时代的一个热门话题。物联网是能够通过信息传感设备将物品与互联网连接起来,进行信息交换和通信,以达到智能化识别
本体学习(Ontology Learning)是自动或半自动构建本体的一系列方法和技术,它对本体建模具有积极的推动作用,主要体现在能够减少手工构建本体繁杂的人力消耗和提高本体构建质量
近年来,流数据挖掘与管理成为学术界和工业界所共同关注的问题。随着skyline计算在多标准决策系统、城市导航系统、数据挖掘和可视化、智能防御系统、以及地理信息系统等领域
在计算机视觉的领域中,视频目标的跟踪有着重要的研究意义,视频目标跟踪的主要工作是在一段视频序列中寻找出与指定目标最相似的内容以检测、识别、提取和跟踪,通过分析获得
医用B超以超声波为载波,通过幅度调制与解调机制完成对人体生理组织的探测。传统B超由于电子技术水平的限制普遍采用模拟电子技术实现,但由于模拟线路自身干扰大、信号处理精
计算机网络的高速发展给网络管理带来了重大挑战。但是SNMP协议在网络配置,传输效率,安全性,告警管理等方面仍然存在根本性的缺点。而基于XML的NETCONF协议具有强大的配置功
随着信息技术的发展,资产密集型企业的设备功能不断增强,构成更加复杂,自动化_、系统化程度越来越高,相应的维护与管理更加困难,从而给企业设备管理工作带来许多新的问题,严