大规模容器云平台稳定性闭环解决方案的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zxc286929269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摩尔定律的失效意味着硬件设备的性能发展将遇到瓶颈,而在互联网经济快速发展的驱动下,上层业务软件的规模仍然在日渐扩张,为了尽可能整合廉价的硬件资源,满足业务需求,容器云平台成为了基础设施领域的行业标准。近几年间,各大互联网企业都将自己的核心业务从传统的裸机运行模式迁移到了云原生模式。基础设施架构的变革也对传统运维体系提出了新的挑战,如何保障底层容器云平台的稳定性已成为云计算行业当前亟待解决的一个关键性问题。针对这一行业背景,本文对容器云领域的稳定性研究现状展开全面的调研,发现社区标准方案仍然存在功能分散化、监控生态不完备与节点管理机制缺失等一系列问题,严重影响集群运维工作的效率。为解决这类问题,本文受容器编排调度标准Kubernetes声明式API的启发,将闭环控制思想应用在集群稳定性问题上,提出了一套面向大规模容器云平台的稳定性闭环解决方案。该方案将集群稳定性分解为三类子问题——异常发现、根因定位与故障修复,并分别进行了针对性研究与系统实现:1.设计并实现了一种节点综合巡检系统,支持自定义类型指标数据的采集与节点异常的及时发现,并利用API聚合技术实现指标消费接口的标准化,完备了Kubernetes在节点层面的监控生态。2.设计并实现了一种基于Pouch Container日志的异常诊断系统,利用双向推导有限状态机模型实现交叠日志的精准分离,并通过基于状态转移链路的异常标注方法对异常根因进行诊断,完成了从业务异常到容器平台根因的定位工作。3.设计并实现了一种规模化的Kubernetes集群故障自愈系统,利用运维自动化技术打破Kubernetes与节点生命周期管理的隔阂,并通过批量执行与灵活的策略控制来保证修复流程的可靠性,实现了故障节点的自动愈合。以上三部分研究成果在功能层面高度内聚,可以独立承载细分领域的行业需求。同时,三者围绕Kubernetes标准API协同工作,即可构成本文提出的稳定性闭环,实现集群健康状态的自适应控制。最后,本文分别对各系统的功能、效率与可用性展开测试,实验结果表明,本文工作能够有效解决大规模容器云平台的稳定性问题,具有良好的实用价值。
其他文献
背景:胆囊癌(Gallbladder Cancer,GBC)常见的胆道系统恶性肿瘤之一,发病率为2.5/105,由于其早期症状隐匿且具有极强的侵袭性,往往只有极少数患者在确诊后有机会进行治愈性切除治疗,因此胆囊癌的五年生存率极低。目前人们对于胆囊癌的发病机制认识仍然十分有限,尚针对胆囊癌的有效治疗方法,所以阐明其发生发展的分子机制对于寻找胆囊癌诊断及治疗方法来说非常重要。哺乳动物的线粒体载体系统(
对两种柴油机油在Mack T-11发动机试验后的油样进行分析。结果表明:在Mack T-11发动机试验中,随着烟炱含量的增加,烟炱颗粒的粒径逐渐增大;分散性能较差的油品,烟炱颗粒不断
机器视觉因其具有速度快、精度高、稳定性好等诸多优点,被广泛运用于产品缺陷的自动检测,并成为一个研究热点问题。本文针对纸尿裤表层结构的表面缺陷(外形缺陷、裂缝、污点
《跳水》是六年制小学语文第十册第四组教材的第二篇讲读课文。本组课文的重点训练项目是“注意事物的联系”。进行《跳水》这篇课文的教学,教师应引导学生通过句、段的教学帮