论文部分内容阅读
数据中心和分布式系统会产生大量详细且具有关联关系的日志信息。利用这些信息可以快速的对系统进行错误诊断、性能分析以及有效价值挖掘。将日志建模成图的格式能够方便的把日志处理问题转化为图计算和图匹配问题。与此同时,随着服务种类和强度的进一步提升,基于图的日志数据规模在不断的增大,如何更加高效的处理这些数据成为了学术界和工业界研究的热点。除了图的基本特征外,日志数据还具有时序关系、结构多样等特点。这些特点给基于图的日志处理带来了新的挑战。本文通过对现有系统的分析,发现其性能瓶颈主要集中在磁盘I/O、内存计算、增量处理等方面。基于此,本文描述了针对以上系统瓶颈提出的一系列优化策略和改进方法。本文的主要研究成果包括:(1)针对日志图计算轮数过多,磁盘I/O量巨大的问题,提出了磁盘I/O缩减策略。降低了点访问局部性的要求,引进更加高效的算法。最大程度的汲取载入数据的有效价值,从而大幅度降低了计算的迭代轮数,显著的减少了磁盘I/O的总量。基于此,本文实现了全新的外存图处理系统CLIP。实验表明,CLIP实现的图算法性能要显著优于现有系统(能达到数十倍甚至数千倍的加速)。(2)针对日志图计算过程中内存计算并行力度不够以及CPU资源浪费严重的问题,提出了高效的选择性调度、串行算法的并行化、对角线优先的图划分和调度等优化策略。进一步提升系统的计算性能,从而匹配全内存以及快速存储设备的性能。实验表明,相比于现有的系统,在内存执行上能够达到最高43.3倍的加速比;在更加快速的外存设备上,最高提升了2.88倍的性能。(3)针对日志图查询CPU资源浪费过多、中间结果庞大的问题,提出了时序窗口匹配模型,将匹配的搜索空间限制到窗口内部。极大的降低了匹配的空间以及中间状态数量,从而显著的提升了计算的性能。实验结果显示,在内存模式下,比现有算法快出1-2个数量级;在外存模式下比现有算法快出2个数量级以上。(4)针对日志图在线处理过程中图重建速度慢以及增量计算性能低的问题,提出了基于时间窗口的高效并行动态图重构方法和新的针对动态图处理的增量算法。并基于此构建了在线日志图处理系统Pisces。实验表明,Pisces能提供每秒钟千万条边的图重构速度;提出的并行图匹配增量算法在16个线程下能达到10.77倍性能加速,而动态图计算增量算法相比于现有算法最高提升了45%的性能。