论文部分内容阅读
当今很多并行处理器系统的并行处理能力受限于其通信或互连方式,而不是它们的运算单元。随着工艺技术的进步,存储器和处理器变得越来越快,而处理器引脚密度和互连的连线密度却很难增长。并且,处理器之间板内和板间的通信频率远远落后于处理器内部的时钟频率,这些因素使得互连成为当今乃至未来并行处理系统成功的关键。并行处理器互连网络的路由算法异常复杂,电路延迟长,逻辑规模巨大,是制约高性能并行处理器提高频率、降低功耗的瓶颈。高性能互连网络的研究与实现已成为国内外研究热点之一。流处理器是一种专用处理器,主要面向密集计算的流应用领域。作为某巨型并行处理器的加速部件,用来提高对流数据的处理能力。在X流处理器系统中,多片流处理器芯片组成一个并行系统,使得这个加速部件可以更加高效的并行处理流数据。通过深入研究了国际上互连网络方面的最新研究成果,本文提出了X流处理器互连网络的优化设计方案,并完成了X流处理器互连网络的设计与验证。模拟与综合结果显示,所设计流处理器互连网络的工作频率达500Mhz以上,网络路由器延迟为6个时钟周期,吞吐率达到8GB/S。符合X流处理器的性能要求。该互连网络在实现结构上,采用了直接网络的二维环绕网拓扑结构,分为4个方向进行数据传输,路由为维序路由。网络有两个内部接口,分别进行流数据与系统消息的通讯,路由器采用交叉开关结构。由于影响互连网络频率的关键因素是交叉开关通路延时过大,本文对整个交叉开关进行了全面的研究,采用了3×3交叉开关组合成一个5×5交叉开关,代替通常采用的5×5交叉开关。减少了逻辑级数,降低了关键路径的延迟。同时对路由算法进行了优化设计,进一步提高了网络路由器的性能。整个设计通过了海量数据输入测试,并对各种指令的操作数、边界情况和各种随机数据组合进行了充分模拟,代码覆盖率为100%。在系统级平台上运行了大量流级程序对网络进行了系统级测试,进一步验证了设计的正确性。X流处理器已流片完毕,芯片正在测试中,初步测试结果表明互连网络功能正确,性能满足设计要求。