论文部分内容阅读
在信息经济时代,信息管理需依赖于计算机技术、网络与通信技术等最新成果,将各类分布式信息资源互联互通,以此实现系统的整体优化和规模优势。数据中心网络是目前最重要的网络技术之一,它将大量计算和存储服务器连接起来,以更经济更便捷的方式达到高速计算和海量存储等需求。然而,数据中心网络内部网络拓扑的改变,交换机的升级,虚拟机的迁移,交换机和链路失效等都会引起数据中心网络更新,即流量传输路径的改变,这给数据中心网络服务性能提出了新的挑战。首先,迁移到不同的目的网络状态,对网络的影响也并不相同;第二,全局的流量重调度可以优化网络吞吐量以容纳更多的流量,但同时也会导致网络内部更多现有流量的迁移;第三,网络中存在大量并发的数据流并且这些数据流有可能竞争相同的链路资源,这也会加剧流量重调度的难度。而且,以流为单位的调度也并没有考虑到事件的特性;第四,对队列中更新事件的顺序调度可能会发生队首事件阻塞,从而导致平均事件完成时间增加;最后,链路故障中丢失的数据包依然需要依赖端主机的重传机制来重传。然而这种重传机制所带来的延迟可能会导致网络更新的中断,更会导致延迟敏感的短流的流完成时间急剧上升,从而影响数据中心网络对上层应用的服务质量。本文针对最佳目的状态选择,最小代价迁移的网络更新,基于事件的高效网络更新,基于事件的延迟网络更新和链路故障下的网络更新的数据平面设计五个问题进行研究,取得的研究结果如下。本文首次提出网络更新最佳目的状态选择问题。对于数据中心网络来说,一对源、目的地址间存在多条路径,所以,网络更新之后的目的状态也会有多种可能。由于不同的目的状态所产生的迁移序列对网络的影响即网络丢包率和延迟抖动不尽相同,因此,选择目的网络状态对降低网络更新对网络性能的影响至关重要。为此,我们首先生成所有可行的候选目的状态,然后提出了一种关联更新策略,通过观察从初始状态到候选目的网络状态的转换过程中对网络的影响来决定最佳的目的状态,发现状态转移过程中迁移流量最小的目的状态对网络的影响最小。针对由于链路带宽限制而无法加入网络的更新流,我们将典型的网络更新问题描述为一组流的重调度问题。对此,我们提出了两个更新机制,Lupdate和LupdateS,以最小化网络更新过程中的流量迁移。其基本思想是以迁移最少的现有背景流为代价,本地地将每条新流调度到一条最短路径上。由于一条背景流的迁移可能并不能满足新流的链路带宽需求,Lupdate-S允许迁移多条背景流以满足新流的带宽需求。我们在广泛使用的胖树数据中心网络和ER随机网络下进行大规模的数据驱动评估。实验结果表明,即使在高利用率的链路比例很高的情况下,我们的方法也能以尽可能少的流量迁移实现无拥塞的网络更新。本文我们将基于流层面的网络更新扩展到事件层面,以体现事件的特性。针对来自不同更新事件的流量,我们在网络更新事件的层面来优化每个更新事件的更新代价和事件完成时间(ECT)。对此,我们使用近似算法来优化更新事件的更新代价,并且在此之上提出了两种有效的方法LMTF和P-LMTF。其中LMTF优先调度更新代价小的事件以减小平均ECT,P-LMTF在此基础上,采用机会更新的方法寻找可以与队首事件同时执行的事件以提高更新事件的平均和尾ECT并保证公平性。数据驱动的实验表明,当网络利用率超过70%时,与FIFO方法相比,P-LMTF方法的平均ECT降低了75%,尾ECT降低了42%。针对网络更新事件队列中的队首事件阻塞问题,我们设计了延迟更新机制。我们提出了两种部分延迟更新方法PDU和PDUN以解除阻塞状态并提高了更新效率。PDU策略首先根据事件的到达顺序调度事件,以保证公平性。同时,队首事件中的不能被立即调度的流将被跳过,从而为后续更新事件提供了更多的执行机会。考虑到大多数事件仅仅由于一小部分流被延迟而无法完成,所以PDUN根据更新事件的剩余流的数量对延迟事件进行重新排序以加快这些更新事件的执行。实验结果表明,与FIFO策略相比,当网络利用率在30%波动到80%之间波动时,PDUN策略的更新事件平均ECT降低的比例为80%-90%。本文首次提出并实现了链路故障的网内(in-network)丢包恢复机制。由于主机端重传链路故障中丢失的数据包的巨大延迟,我们希望网络承担起恢复这些数据包的责任。在链路故障发生之后,我们不再需要依赖发送端来重传数据,而是从网络设备上直接重传以保证连续的数据包传输并增加网络的可靠性,从而消除由于链路/交换机设备故障而丢包所导致的对上层延迟敏感流完成时间的影响。我们提出了共享队列环(SQR),其完全消除了链路故障期间的数据包丢失,并支持无缝切换到备份路径以连续进行流量传输。我们使用P4编程语言在Barefoot公司的Tofino交换机上实现了SQR。硬件测试台上的实验结果表明,对于延迟敏感的工作负载,SQR可以完全屏蔽来自端点传输的链路故障,从而减少高达4个数量级的尾部FCT。