论文部分内容阅读
在军事与安全领域,由于无线信道带宽受限于环境噪声、频带复用、保密通信等一系列因素,低码率数字语音编解码器即声码器被广泛使用。随着语音码率降低达到300~600bps,声码器算法由于计算复杂度上升使得实时处理性能需求达到数百甚至上千MIPS(Million Instruction Per Second,每秒百万条指令),而其内存开销也因为语音参数量化码本数据的增加而超过了200kB,使得在嵌入式处理器上以较低工作频率和较少片上内存实现低码率语音实时编解码变得越来越多困难。另外,在作战指挥通信和多人语音会议等实际应用场景中需要同时处理多路语音,成倍增长的性能和内存需求为处理器设计带来了更大的挑战。面向特定应用,ASIP(Application Specific Instruction Processor,专用指令处理器)通过对指令集和流水线架构进行定制和优化,可实现比GPP(General Purpose Processor,通用处理器)或通用DSP(Digital Signal Processor,数字信号处理器)更高的执行效率,同时又拥有ASIC(Application Specific Integrated Circuit,专用集成电路)所欠缺的可编程性和可配置性。而针对应用的并行执行需求,基于异构众核架构的处理器可实现较高的处理性能和功耗效率。因此,本文采用ASIP的设计方法对面向多通道低码率MELPe(Enhanced Mixed Excitation Linear Prediction,增强型混合激励线性预测)声码器应用的异构众核处理器进行研究和实现。本文首先通过定位声码器应用性能瓶颈制定了异构多核协同执行策略,并对异构众核处理器的性能加速比和功耗效率进行建模和研究。本文设计了一款面向多通道低码率声码器应用的异构众核ASIP,在NoC(Network on Chip,片上网络)中集成了大小异构处理核和共享内存核。针对应用性能瓶颈,本文为处理核设计了一种专用ISE(Instruction Set Extension,指令集扩展),可在单条指令内完成定点数计算与后处理,并且采用了一种“流水级跳跃”技术提升扩展指令执行效率。另外,本文还提出一种嵌套循环加速技术,采用循环体自动计数和跳转有效减少了处理核执行循环运算的时间。然后,本文对面向NoC众核处理器的核间通信问题进行研究。最后,本文基于SMIC 40nm工艺完成了异构众核ASIP的芯片实现,并对应用进行移植和优化,在较低工作频率下实现了低码率声码器应用在异构众核ASIP上的实时处理。本文对NoC众核处理器的多核同步控制和核间数据传输这两个核间通信关键问题进行了研究,并取得了如下技术创新。在多核同步控制方面,针对采用集中式锁同步方案带来的核间通信阻塞问题,本文提出了一种分布式排队锁同步技术。通过对取锁队列中不同处理核的同步控制单元进行分布式轮询访问,实现了排队锁的获取与释放。同步控制单元内采用FIFO存储同步请求,通过本地轮询减少了核间通信量。本文提出的锁同步技术在处理核增加时依然具有较低的同步延迟。本文针对以往栅栏同步方案不支持多栅栏并发执行以及扩展性不高的问题,提出了一种基于PS(Packet Switching,包交换)和CS(Circuit Switching,电路交换)混合交换NoC的栅栏同步技术。当栅栏同步请求在PS子网络中传输时,可同时在CS子网络中建立专用通路减少传输延迟。通过在CS crossbar(交叉开关)中动态合并同步请求可有效减少核间通信量。该技术对比以往方案具有更低的同步延迟,并且支持并发栅栏的高效执行。在核间数据传输方面,针对CS NoC专用通路建立时间过长导致通信效率下降的问题,本文提出了一种基于PS-CS混合交换NoC的低延迟核间DMA(Direct Memory Access,直接内存访问)传输技术。当在PS子网络中传输数据时,通过配置crossbar的双向传输端口可在CS子网络中建立部分专用通路。根据后续传输请求可动态延长通路,从而进一步减少数据传输延迟。当多个DMA传输并发执行时,采用该技术可显著提升核间数据传输效率。综上所述,本文设计了一款面向多通道低码率声码器应用的异构众核ASIP,并对面向NoC众核处理器的核间通信关键问题进行了研究。本文为面向特定应用的高功耗效率ASIP实现提供了理论依据和设计参考。