论文部分内容阅读
多核技术的发展使得处理器向通信密集型转变,传统的总线设计不能满足相应的通信需求。片上互连网络具有高可扩展性和灵活性,已经成为解决多核处理器通信瓶颈的有效方式。但是,随着片上网络集成度不断增大,其可靠性问题也越来越严重。本文针对片上互连网络的永久链路错误和永久路由器组件错误的容错策略展开研究:第一,通过分析片上互连网络链路的永久性错误,提出了基于区域洪水路由的实时容错路由算法。为了实现实时的容错,我们首先提出了容错的MPI-like通信协议。在该协议中,如果发送请求消息的源结点一定时间内没有收到响应,就认为链路出错,并进入寻找无错路由的过程。我们提出的基于区域洪水的路由算法用于寻找无错路由。该算法在源结点和目的结点为顶点的矩形区域内广播寻找路由的报文,每一步搜寻都朝着目的结点的方向进行。这一算法相对于传统的洪水路由算法,减少了大量无用消息包,减少平均网络延迟,避免网络阻塞,同时却只带来了很小的容错能力损失。通过booksim模拟器比较平均包延迟,我们发现区域洪水路由相对于传统的洪水路由算法能够大幅地降低延迟。特别是在bit complement模式下,获得的延迟降低达25%。此外,我们还比较了区域洪水路由算法和传统洪水路由算法的容错能力。结果表明,在低错误(<4%)的网络中,我们的方法获得的容错能力比传统洪水路由只降低了2%。最后,我们使用RTL-Router以及DC(Design Compile)综合工具评估面积和功耗开销。相比于基本的路由器,我们的设计开销约为12%。第二,通过分析片上互连网络路由器组件的永久性错误,提出了高可靠性、高性能和低开销的容错路由器设计。在两阶段标准路由器基础上,我们使用双路由策略容忍路由计算单元出错,使用默认胜利者策略容忍虚拟通道分配单元出错,使用实时仲裁器选择策略容忍交叉开关分配单元出错以及使用双旁路总线机制容忍交叉开关单出错。和之前的容错路由器设计不同,我们首次利用流水段优化和路由算法的特点,在容错设计中考虑了网络性能,并解决了错误容忍所带来的性能下降问题。我们的设计在高负载网络下仍然可以维持性能。我们在文中与现有的容错路由器设计进行了比较,结果表明我们的设计可以获得更好的性能,尤其是在网络负载较高时。同时,我们评估了设计的面积开销,并利用硅保护因子(SPF)评价路由器的可靠性。结果表明,在硬件开销降低16%的基础上,SPF提高了44.7%。因此,我们的路由器设计具有更好的性能,更低的开销以及更高的可靠性。综上,本文围绕片上网络的容错问题展开研究。首先,针对片上网络的永久性链路错误,提出了基于区域洪水的实时容错路由算法。该算法通过容错能力的稍微降低换取网络性能的大幅提升。其次,本文针对片上网络路由器组件错误,提出了基于两阶段标准路由器的容错路由器设计。该路由器设计可以容忍多个流水单元出错,并同时实现了高可靠性,高性能和低开销。本文的工作具有一定的理论和应用价值。