大数据系统异常检测与资源预估算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:quhaoshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的革新和数据生产方式的逐渐转变,大数据系统面临着诸多新的挑战,这意味着大数据系统运行状态会更加多变,运维工作也更加艰巨。高效地检测系统异常,是预防和治理的基石,合理地分配调度系统资源,是处理异常的首要和常用手段。在实际应用场景中,仅依靠人工维护系统的正常运行不仅成本极高而且效率低下,因此智能运维是大数据系统相关技术发展的必经之路。本文从大数据系统面临的数据流场景出发,围绕异常检测与资源预估技术展开了相关研究,并分别在当前研究的基础上设计了相应的算法。基于数据流的异常检测算法的研究重点是能够在较短时间、使用较小内存的情况下,发现数据中的离群值,从而及时向用户反馈大数据系统的潜在风险。资源预估技术要求在掌握系统一段时间的运行数据后,能够对系统接下来需要的资源阈值做出较为准确地估计,从而支持资源管理者从全局做出合理的系统资源分配,达到系统计算能力与数据吞吐率的最大化。本文首先设计了一种面向数据流的异常检测算法,在检测前将数据划分集合,不在仅仅逐点判断是否为异常点,而是通过集合的性质对部分数据集体判断,大大提升算法效率。除此以外,将数据相较于以往研究中对于异常单一的定义,本文在全局异常定义的基础上,创新性地提出了辅助异常标准的概念,全局异常由使用者根据实际场景设置异常参数,而辅助异常标准能够根据数据特点,在运行中自适应的调整异常标准,使得算法在不增加额外计算开销的同时,实现了计算加速。经实验发现,本文提出的算法相较同研究的其他算法,最好情况下将CPU占用时间降低了60%。本文的第二部分的主要研究内容为资源预估,资源预估是资源调度和分配中更细粒度的工作,准确的预估结果可以使资源分配变成一个可计算问题,支持资源管理者更好地决策。本文将大数据系统中的任务分为周期型任务和突发型任务,发现了当前对突发型任务资源预估的技术痛点。因此本文重点研究了如何对运行特点和数据分布不确定的突发型任务进行资源预估,并将极值理论应用于系统资源预估当中,最后提出了完整的资源预估框架。经过与传统的解决方法对比,本文提出的算法能够将资源利用率至少提升7.6个百分点。
其他文献
数字网络媒体时代的到来,使文学艺术领域的创作更多体现数字化、混合剪辑等特点。伴随着短视频自媒体平台的涌现,戏仿创作再次迎来热潮。此类作品往往通过戏仿一部或多部在先
随着智能手机、智能音箱等智慧终端在生活中的不断普及,人们对这些设备的依赖逐步增加,智慧终端也发挥了越来越重要的作用。与此同时,人们也面临着数据爆炸的问题。据估计,到
近代中国面临着极大的挑战,国土被列强侵占,国家主权逐渐沦丧,中华民族陷入生死存亡的严峻境地。为了寻求拯救国家时局之道路,仁人志士不断反思传统文化,总结探索利于时代发
虽然军舰通常享有主权豁免,只能由船旗国对其进行排他性管辖,但是,当军舰沉没于其他国家的管辖海域后,能否继续由船旗国对其进行排他性的管辖却存在争议。本文在水下文化遗产
随着无线通信、移动互联网及无线终端技术的发展,无线接入网的移动流量爆炸增长,并且催生出各种各样的业务需求,如无人驾驶、远程医疗等。面对多样化差异化的业务需求,在5G网
随着我国经济持续高速发展,产业升级、技术进步对劳动者的要求越来越高,国家和社会对职业培训的投入不断增加,产生体量庞大的职业培训市场需求,各式各样的职业培训机构应运而
生物医学文献是记录、积累、传播和继承生物医学知识的有效手段,是生物医学科研人员获取和交流领域知识的最基本、最重要的途径。随着生物医学科学技术的迅速发展,生物医学文
现有的无线频谱资源已变得稀缺,可见光通信通过采用400-800 THz的频段进行数据传输有效得解决了此问题。在可见光通信系统中,为了使光能够快速闪烁方便信号传输,通常使用发光
随着我国城市化和老龄化现象的产生,社会发展进程中许许多多新兴群体的数量不断攀升。在流动人口家庭化迁移趋势明显、人口的流动方式逐渐由个体劳动力流动转变为家庭化迁移
21世纪,人类进入了大规模开发利用海洋的时代。船舶作为人类认知和探索海洋的主要工具,船舶的检测和监管关系到海洋资源的开发、海洋权益的维护、海洋科技的创新以及海洋生态