基于GPR预判模型的海量日志流实时异常检测研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:lxj5186101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展和信息化的不断深入,大型互联网企业产生的日志量也呈现出爆炸式增长。通过分析和检测日志,及时发现用户行为和系统状态的异常,对于提高用户满意度和系统稳定性具有重要作用。传统的日志异常检测采用先存储后处理的方式,但是随着海量日志时代的到来,这一方式面临存储空间占用过高以及实时性差的瓶颈,所以迫切需要研究新的日志异常检测架构和算法。因此针对海量日志实时异常检测的课题,本文分别从检测算法和实时计算两方面进行研究:(1)对日志流进行异常检测,一般采用基于规则匹配的方式,但是效率较低,因此本文研究了文本日志的数值化表示方法,提出了利用信息含量来表征日志。由于直接计算信息含量复杂度较高,所以用无损压缩与信息含量之间的关系间接的估计信息含量。为了满足日志流压缩的特殊需求,本文在序列压缩算法的基础上提出了一种适合于日志流场景的无损压缩算法LSCA。文本日志转换成数值形式后,通过引入高斯过程回归模型,提出了基于GPR预判模型的日志流异常检测算法,将实际收到的数据值与预估的数据值比较,看其是否在偏差范围之内来判定日志是否异常。(2)基于GPR的预判模型可以有效的检测孤立异常,但是对局部异常检测效率不高。为了解决这个问题,本文引入采样的方法,提出了适合日志流场景的采样算法LSUS,将其与GPR结合形成了新的模型LSUS_GPR,然后把新模型推广到全局异常检测。实验表明新模型的计算复杂度和误判率都明显降低,提高了检测效率。(3)借助于JStorm流式计算框架,本文设计并实现了基于GPR预判模型的日志流实时异常检测系统LRADS。针对LRADS系统,分别从总体设计和性能优化两个方面进行讲述。总体设计方面,主要介绍了核心部分日志采集和实时检测模块。性能优化方面,提出了离线和在线调度优化方法。最后系统测评表明LRADS稳定高效,具备生产环境使用价值。
其他文献
随着数字电视的普及和VOD系统的发展,人们可以通过有线电视网络在浩瀚的影视海洋里漫游。然而,由于影视资源的爆炸式增长,很多用户经常会“迷失”其中,他们往往找不到自己真
如今互联网的飞速发展是另所有人欣喜的,而且这也说明互联网使用的TCP/IP体系结构和协议规范取得了巨大的成功。   但是互联网发展的速度和规模,也是所有人始料未及的,制定TC
随着经济高速发展,金融业市场化进程日益加快,票据业务不断膨胀,票据数量与日俱增,而票据处理工作十分繁重。为了摆脱这种繁重重复的劳动,计算机识别发挥了重要的作用,票据自动识别
车牌的检测识别是计算机视觉和图像处理研究领域的一个重要课题,并且在目标检测领域具有代表性。由于天气和光照的变化、复杂背景的干扰等原因的存在,使得车牌信息的描述与真
随着社会的进步以及网络技术、计算机技术的飞速发展,基于生物特征的身份认证技术受到广泛的关注,如指纹识别、虹膜识别、人脸识别等。在所有生物特征识别方法中,人脸识别技
蚁群算法是20世纪90年代意大利学者MarcoDorigo等人受到自然界蚂蚁觅食行为的启发提出的一种新型的群体智能算法,其模型本身具有较强的鲁棒性和并行性,又具有分布式、自组织和
数字水印技术通过在数字产品(数字图像、音频、视频等)中嵌入版权信息来证实该作品的所有权,从而为数字产品版权保护和多媒体信息安全提供了一条新的解决思路。鲁棒性数字水
由于动画素材库所涉及的素材主要是多媒体数据资源,包括图像、音频、视频、模型和运动数据等,具有非结构化、表现力强、蕴含信息量大、形象生动等特性,传统的以文本描述为特
目前各大高校都已扩大办学规模,师生数量都有明显的提高,这对于学校的行政管理能力提出了更高的要求,尤其是在日常考勤方面。现今所采取的考勤方式多采用人工收集,随着师生人
移动IP是对IP移动支持功能的补充,促使TCP/IP向无线移动领域拓展,采用移动IP来解决无线IP网络中的移动性管理成为一种必然。移动性管理是移动IP研究中的一个十分重要的问题,移动
学位