数据中心网络更新策略研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mengzi_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息经济时代,信息管理需依赖于计算机技术、网络与通信技术等最新成果,将各类分布式信息资源互联互通,以此实现系统的整体优化和规模优势。数据中心网络是目前最重要的网络技术之一,它将大量计算和存储服务器连接起来,以更经济更便捷的方式达到高速计算和海量存储等需求。然而,数据中心网络内部网络拓扑的改变,交换机的升级,虚拟机的迁移,交换机和链路失效等都会引起数据中心网络更新,即流量传输路径的改变,这给数据中心网络服务性能提出了新的挑战。首先,迁移到不同的目的网络状态,对网络的影响也并不相同;第二,全局的流量重调度可以优化网络吞吐量以容纳更多的流量,但同时也会导致网络内部更多现有流量的迁移;第三,网络中存在大量并发的数据流并且这些数据流有可能竞争相同的链路资源,这也会加剧流量重调度的难度。而且,以流为单位的调度也并没有考虑到事件的特性;第四,对队列中更新事件的顺序调度可能会发生队首事件阻塞,从而导致平均事件完成时间增加;最后,链路故障中丢失的数据包依然需要依赖端主机的重传机制来重传。然而这种重传机制所带来的延迟可能会导致网络更新的中断,更会导致延迟敏感的短流的流完成时间急剧上升,从而影响数据中心网络对上层应用的服务质量。本文针对最佳目的状态选择,最小代价迁移的网络更新,基于事件的高效网络更新,基于事件的延迟网络更新和链路故障下的网络更新的数据平面设计五个问题进行研究,取得的研究结果如下。本文首次提出网络更新最佳目的状态选择问题。对于数据中心网络来说,一对源、目的地址间存在多条路径,所以,网络更新之后的目的状态也会有多种可能。由于不同的目的状态所产生的迁移序列对网络的影响即网络丢包率和延迟抖动不尽相同,因此,选择目的网络状态对降低网络更新对网络性能的影响至关重要。为此,我们首先生成所有可行的候选目的状态,然后提出了一种关联更新策略,通过观察从初始状态到候选目的网络状态的转换过程中对网络的影响来决定最佳的目的状态,发现状态转移过程中迁移流量最小的目的状态对网络的影响最小。针对由于链路带宽限制而无法加入网络的更新流,我们将典型的网络更新问题描述为一组流的重调度问题。对此,我们提出了两个更新机制,Lupdate和LupdateS,以最小化网络更新过程中的流量迁移。其基本思想是以迁移最少的现有背景流为代价,本地地将每条新流调度到一条最短路径上。由于一条背景流的迁移可能并不能满足新流的链路带宽需求,Lupdate-S允许迁移多条背景流以满足新流的带宽需求。我们在广泛使用的胖树数据中心网络和ER随机网络下进行大规模的数据驱动评估。实验结果表明,即使在高利用率的链路比例很高的情况下,我们的方法也能以尽可能少的流量迁移实现无拥塞的网络更新。本文我们将基于流层面的网络更新扩展到事件层面,以体现事件的特性。针对来自不同更新事件的流量,我们在网络更新事件的层面来优化每个更新事件的更新代价和事件完成时间(ECT)。对此,我们使用近似算法来优化更新事件的更新代价,并且在此之上提出了两种有效的方法LMTF和P-LMTF。其中LMTF优先调度更新代价小的事件以减小平均ECT,P-LMTF在此基础上,采用机会更新的方法寻找可以与队首事件同时执行的事件以提高更新事件的平均和尾ECT并保证公平性。数据驱动的实验表明,当网络利用率超过70%时,与FIFO方法相比,P-LMTF方法的平均ECT降低了75%,尾ECT降低了42%。针对网络更新事件队列中的队首事件阻塞问题,我们设计了延迟更新机制。我们提出了两种部分延迟更新方法PDU和PDUN以解除阻塞状态并提高了更新效率。PDU策略首先根据事件的到达顺序调度事件,以保证公平性。同时,队首事件中的不能被立即调度的流将被跳过,从而为后续更新事件提供了更多的执行机会。考虑到大多数事件仅仅由于一小部分流被延迟而无法完成,所以PDUN根据更新事件的剩余流的数量对延迟事件进行重新排序以加快这些更新事件的执行。实验结果表明,与FIFO策略相比,当网络利用率在30%波动到80%之间波动时,PDUN策略的更新事件平均ECT降低的比例为80%-90%。本文首次提出并实现了链路故障的网内(in-network)丢包恢复机制。由于主机端重传链路故障中丢失的数据包的巨大延迟,我们希望网络承担起恢复这些数据包的责任。在链路故障发生之后,我们不再需要依赖发送端来重传数据,而是从网络设备上直接重传以保证连续的数据包传输并增加网络的可靠性,从而消除由于链路/交换机设备故障而丢包所导致的对上层延迟敏感流完成时间的影响。我们提出了共享队列环(SQR),其完全消除了链路故障期间的数据包丢失,并支持无缝切换到备份路径以连续进行流量传输。我们使用P4编程语言在Barefoot公司的Tofino交换机上实现了SQR。硬件测试台上的实验结果表明,对于延迟敏感的工作负载,SQR可以完全屏蔽来自端点传输的链路故障,从而减少高达4个数量级的尾部FCT。
其他文献
面对不断提高的卫星成像分辨率以及快速增加的在轨卫星,天基对地观测卫星系统获取数据的速度和总量都呈爆炸式增长。据报道,我国在轨卫星每天获取的对地观测数据高达数百个TB,而且增长势头强劲,这意味着对地观测大数据时代已经来临。当前,用户对卫星对地观测数据服务提出新要求。在时间分辨率上,用户急需卫星对地观测数据在获取、传输、处理和分发整个流程中的响应趋向近实时化;在空间分辨率上,用户需要卫星图像的分辨率高
在大规模分布式智能视频监控中,终端摄像头连续不断地向远程服务器发送所采集的视频数据,不仅需要较大的网络带宽和存储空间,而且网络传输延迟较大,面临采样视频压缩的严峻挑战。压缩感知能从基于少量采样点获取的测量值中重构原始数字信号,并在采样过程中完成数据压缩,非常适合于在智能监控终端完成高压缩率的监控视频采集。然而,目前的大部分压缩感知方法采用单一测量率进行压缩感知采样和重构,导致重构质量和采样压缩率的
软件是互联网生态重要组成部分,然而由于设计不当、开发失误等原因,软件中存在形式多样的漏洞,对软件安全乃至互联网安全带来严重安全隐患,不仅威胁个人隐私与财产安全,也对国家战略安全造成重大威胁。通过自动化手段挖掘软件漏洞,发现系统安全隐患并及时防护,是保证系统安全、稳定运行的必要手段。因此,软件漏洞自动化挖掘技术研究具有极高学术价值与现实意义。模糊测试是一种应用广泛的软件漏洞自动化挖掘技术。自其提出以
随着片上系统规模的不断扩大和处理核数的增多,系统对于片上Cache在容量和速度方面有了更高的要求。为了能够有效利用Cache资源,通常采用非一致Cache访问(NUCA)结构以支持高容量低延迟的Cache组织。另一方面,片上网络由于具备良好的可扩展性在片上众核处理器的互连方式上具有显著优势。因此,基于片上网络的非一致Cache访问体系结构逐渐成为未来众核处理器用于组织大容量Cache的主流系统架构
同时定位与建图(SLAM)是计算机视觉领域的重要问题,在无人驾驶、自主导航、成像制导、侦察等领域有着广泛应用。红外相机可以在夜间、雾霾、光照差的环境下成像,具有全天工作能力,因此红外SLAM比可见光SLAM的潜在应用场景更广。但是由于红外数据获取困难、图像纹理弱、信噪比低,国内外对红外SLAM的研究十分有限。本文以适用于红外成像的SLAM系统为研究目标,在研究过程中主要解决了红外相机标定、SLAM
云计算平台是支撑互联网应用服务和大数据处理不可替代的基础设施,已经广泛应用于人类的生产、生活和城市治理的方方面面,呈现出大量数据密集型应用和日益提高的多应用粘合度,这不断加剧了云计算平台的I/O压力。为了支持应用迁移,提高云服务可靠性,云计算平台中的虚拟机使用分布共享存储资源来存储其关键数据。共享存储通过内部网络(如以太网)互连,大数据量存取的带宽可超过单磁盘带宽,但是,在小量数据存取时,延迟大,
基于计算机视觉的自动图像分割是机器辅助医疗图像分析任务中至关重要的步骤。自动且快速地获取具有准确分割掩码的医疗图像,对于帮助医生提高诊断精度、速度以及针对不同病人提供个性化的治疗方案具有重要的意义,针对该技术的研究也是当前科研领域的热点方向。在所有的研究问题当中,由于受到医疗图像独有的对比度低、噪声大、伪影多、内存占用量大以及获取标注信息困难等特性的影响,表示学习成为了提高医疗图像分割性能的核心方
随着5G、物联网、云计算的发展和行业数字化进程的深入,互联网流量爆炸式增长,网络应用也日趋复杂化和多样化,要求网络设备不仅具备极高的处理性能,还应具有极好的灵活性,能够提供面向新型协议、业务的快速定制及优化能力。然而,网络处理器作为网络设备的核心处理单元,采用通用多核或者专用多核的实现方式,难以同时兼备极高的处理性能和良好的灵活性。基于通用多核实现的网络处理器虽然具有极好的灵活性,但存在报文处理吞
随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计
电磁逆散射成像是逆问题的一种,其非适定性和非线性为目标的高质量重建提出了极大挑战。在电磁逆散射问题的实际模型中,只能获取关于目标的有限信息,实现精确重建十分困难,因此开展高分辨精确成像技术研究具有重要意义。本文主要从三个方面开展研究:第一,现有成像算法中缺乏对超分辨成像机理的深入研究,本文提出了一种基于轨道角动量(Orbital Angular Momentum,OAM)电磁波的超分辨成像算法,详