云服务基础设施中故障诊断与识别策略管理研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huangwj03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大型云服务基础设施经常出现故障,这成为了其管理成本的主要组成部分,并会导致托管服务违反服务级别协议(SLA)。
  近年来,各主要云服务提供商,包括IBM、亚马逊和谷歌的云服务基础设施数量出现了前所未有的增长。使云计算服务具有如此吸引力的一些独特特性包括:无限可用的资源池、灵活的规模经济、多租户和自组织特性,这些特性将云服务与传统的分布式系统(例如,数据中心和网格)区别开来。尽管云计算提供了以上服务并具有优势,但也存在挑战。复杂系统已经成为一种流行的计算模式,它支持工作负载自动伸缩,以适应需求的变化和云服务中资源的虚拟化。通过持续配置虚拟资源和物理工作负载的分配使工作实现弹性,但也增加了故障和异常发生的可能性,特别是在提供基础设施服务(IaaS)的层面。在云服务基础设施中,对故障诊断和识别相关问题的管理是至关重要的,这是本文研究的主要问题。
  本文论述了云服务基础设施故障诊断和识别策略管理的四个具体主题:
  (1)由于在异构环境中虚拟化技术的可扩展性和复杂性增大,使故障诊断变得更加困难。但因其在云基础设施的故障管理框架中的重要性,故障诊断和识别仍受到广泛关注。大多数故障诊断和识别方法都是基于主动探测技术,这些技术可用于快速准确地检测故障。然而,大多数方法都受到了通信开销和故障诊断的影响,导致了云服务系统性能的降低,例如IaaS。(2)由于数据量大,监测成为一项特殊的挑战。大型复杂系统的监测需要对故障检测和异常进行高精度、低延迟和近实时分析,还需要通过运行具有代表性的大型数据集处理应用程序进行优化。(3)异常/故障的诊断和自我修复是云服务基础设施的重要操作,需要自动化的故障检测和实时自我修复。(4)在IaaS中,有四个有效的测量标准来确定故障排除的有效性:优先级、故障概率、风险和配置操作的持续时间。一些研究小组的目标是通过将故障诊断扩展到故障排除,来确定如何监测集合、开发分类器并分析测量的属性,而不是单个的测量阈值。
  本文针对云服务基础设施中故障诊断和识别的策略管理进行了研究。提出了有效的方法,并探讨了潜在的动机和解决方案。通过全面的实证分析和新的定量方法进行了详尽的评价,并为今后的研究奠定了基础。达成了四项独立但相互关联的成果:(1)首先,论文提出并开发了一种新的混合模型,名为加速故障诊断和识别(AFDI),根据故障级别和异常的严重程度,监测VM和物理服务器托管的各种系统指标,并研究细粒度容错算法。基于这些发现,论文提出了一种新的方法来构建一种模型,该模型可以优化实时监控的性能,并基于HadoopMapReduce和ApacheSpark平台提高预测的准确性。(2)接下来,论文提出了一种新的方法,通过对其定性指标进行分析和分类来诊断异常/故障。使用机器学习算法确定的异常/故障的分布来创建时间序列诊断方法,以在运行时检测和分类异常/故障,从而估计每个自修复系统组件对系统功能的影响,并实现服务的高可用性。(3)论文提出了一种新的理论方法来构建故障检测与修复(故障排除)模型的步骤,将朴素贝叶斯分类(NBC)与多值决策图(MDD)结合起来,对云异常检测的故障排除进行构建和管理。实施这种方法的实际考量是提供一种决策理论的方法来对云服务基础设施的故障诊断步骤进行建模。(4)最后,论文为IaaS提出了一个基于Apachesparks的瓶颈故障排除性能框架,论文将其命名为CloudPT。CloudPT有许多优点:它具有高效的检测能力;它有一个统一的、全方位的循环反馈,与云生态系统的管理相协作;并且包括故障诊断性能测试。CloudPT的目标是通过扩展故障排除来监测集合、深入分析并对测量的属性进行分类,而不是单个测量阈值。
其他文献
研究背景:  血管平滑肌不仅参与胚胎血管发育时期血管壁的形成,还参与成熟血管损伤后的血管重构,在血管生理和病理条件下发挥重要功能。血管在胚胎发育阶段,首先由内皮细胞形成管腔状结构,之后内皮细胞通过招募平滑肌细胞包裹在其外面形成具有多层细胞的血管中膜,平滑肌细胞功能的正确维持在这个过程中起着关键作用。在成熟血管中,由于平滑肌细胞具有高度可塑性,血管受损后能够从分化型细胞转变为增殖型细胞,发生过度增殖
艰难梭菌(Clostridium difficile),革兰氏阳性厌氧芽孢杆菌,是抗生素引起的感染型腹泻的主要原因之一。当肠道微生物菌群平衡被扰乱,艰难梭菌大量繁殖,过度生长,成为肠道的主要菌群,即会引发艰难梭菌感染(Clostridium difficile infection,CDI),导致肠表皮细胞黏膜坏死和肠上皮细胞凋亡,黏膜通透性增加,最终造成严重腹泻和肠道炎症发生。近年来,由于抗生素严
学位
Neuroligins(NLs)蛋白是一类在神经元突触后膜分布集中的细胞黏着蛋白,在突触的形成和传递中发挥重要作用。NL3是NL蛋白家族的一员,其基因异常和自闭症有关。在啮齿类动物的大量研究中,NL3基因的突变或缺失会引起小鼠的社交障碍、运动增多等,但其分子机制仍不清楚。本研究拟从信号通路着手,探究NL3异常引起自闭症行为的分子机制。  哺乳动物雷帕霉素靶蛋白(mTOR)信号通路在细胞中调控蛋白翻
学位
Ti3AlC2陶瓷是近年来发展起来的一种新型陶瓷材料,因其兼具陶瓷和金属的优异性能,在机械、能源、航空、电子和化工等领域具有广泛的应用前景。本文首次采用无焊料电弧焊接的方法进行了Ti3AlC2陶瓷材料与Cu(Mg)合金的焊接研究,证实了焊接方法的可行性,揭示了接头的组织结构和性能与焊接工艺之间的关系,探讨了电弧加热过程中焊接工艺参数对焊接母材内温度场的影响规律,这些研究工作及成果将为大尺寸、复杂形
学位
在能源危机和环境保护的双重压力下,人们对柴油机的性能和排放的要求也越来越高,而柴油机燃烧过程的好坏对其性能及排放有着至关重要的影响。数值模拟方法具有成本低、周期短、信息量大和便于优化等特点。广泛地应用于柴油机的燃烧过程的研究。鉴于此,论文通过三维数值模拟的方法对某增压中冷柴油机燃烧过程进行了数值分析,并对其碳烟和NOx排放进行了初步的研究。本文采用CFD(Computational Fluid D
社交网络的服务模式不断创新、应用功能日益丰富,正逐渐渗透到即时通信、新闻推送、支付交易、游戏娱乐等社会生活的各个方面。对社交网络中社区检测的研究成果已被广泛应用到市场精准营销、搜索引擎开发、网络舆情分析等众多领域。然而由于在线社交网站的用户数量急剧上升,网络规模快速增长,产生了样本数量巨大、关系复杂、超高维度的社交网络大数据,使得社交网络大数据分析的性能成为社区检测结果是否具有高价值的关键因素。因
由于医学图像成像原理的特殊性、人体组织的复杂性以及对诊断结果要求严谨,目前,在临床医疗中依然是以人为主,计算机图像技术为辅方式治疗,这也增加人力负担,同时也有更高的专业和经验要求,正是这样,更加自动化的计算机辅助诊断技术一直是研究所追求的目标。在病变诊断前,有着大量图像处理的工作要做,这对人工来说工作量巨大,并且有着较高的精细度要求,自动化图像处理也是计算机辅助诊断系统的研究重点。  本文主要研究
随着计算机硬件和软件技术的发展,信息化技术已经融入人们生活和工作的方方面面。医疗服务信息化是国际发展趋势,现如今医院的信息化水平越来越高,但国内外用于脑卒中康复评定治疗的专用临床信息系统甚少。与此同时,人口老龄化和康复学科的发展,使得对于专用的脑卒中康复信息系统的研究尤为重要。  本文利用Google推出的开发平台AndroidStudio结合轻量型嵌入式数据库Sqlite3,设计和开发了一套基于
学位
随着生命科学技术日益蓬勃,且取得了许多重大的成果,此外分子生物学的研究也是发展迅猛,由此产生的生物基因数据呈指数倍的增长,形成了海量的基因遗传数据。这么多海量数据蕴藏着大量具有重要科研价值的信息,因此挖掘出遗传疾病的致病位点对人类生命健康和疾病的预防、治疗具有积极的意义。文章研究的主要目的:结合基因遗传学和计算机科学建立合理的评价模型,对基因位点数据进行分析,挖掘出隐含在基因位点数据中与疾病显著相
学位
在现代物流行业中,一方面,物流服务的质量决定了消费者的满意程度,另一方面,物流企业一直面临着如何降低物流成本从而提高经济效益的难题。物流成本是服务的空间移动或时间占有所耗费的各种劳动的货币表现,其中,运输路径的优化程度直接影响着客户满意度和物流成本的高低。因此,车辆路径问题应运而生,该问题不仅在实际应用中具有重要意义,也是组合优化领域最具挑战性的NP难问题之一。  物流运输具有以下运营模式与特点: