论文部分内容阅读
在高性能微处理器和SoC中,时钟树功耗占总功耗很大比重,时钟门控技术是有效降低时钟树功耗的方法。基于综合的时钟门控技术遗留了大量冗余的时钟脉冲,时钟门控效率低,时钟树功耗优化效果不理想。采用基于数据驱动的时钟门控(Data-driven Clock Gating, DDCG)技术能够有效关断冗余时钟脉冲,提高时钟门控效率,进一步降低时钟树功耗。本文以基于数据驱动的时钟门控技术为研究重点,综合考虑寄存器翻转矢量之间的相关性和每个寄存器的物理位置,实现寄存器群组最优化。本文将寄存器群组过程抽象为最小成本完美匹配(MCPM)问题,采用DDCG寄存器群组算法获取最优化的寄存器群组方式。该算法主要包括三部分:1) Edmonds算法实现一般图加权最优匹配;2)状态矢量处理算法获取寄存器群组冗余时钟脉冲数量,用以表征寄存器翻转矢量之间的相关性;3)最小覆盖圆算法确定寄存器群组最小覆盖圆直径,用以表征寄存器物理位置的影响。针对传统的DDCG技术面积开销大的问题,本文给出了门控效率排序与筛选、组合式群组和异或逻辑近似等改进方法,实现功耗优化和面积开销的平衡。本文基于SMIC 40nm LOGIC工艺,首先在ISCAS89基准电路上进行了物理实现和仿真实验,并分析了该技术的适用条件,然后以DW8051和Cortex-M3处理器作为案例进行了详细的数据分析和对比。结果表明,与基于综合的时钟门控技术相比,采用改进的DDCG技术时,时钟树功耗分别降低了33.13%和35.34%,总功耗分别降低了20.65%和16.42%,面积分别增加了12.5%和9.67%。与传统的DDCG技术相比,采用改进的DDCG技术时,时钟树功耗分别降低了17.01%和31.92%,总功耗分别降低了14.3%和13.08%,面积分别降低了11.41%和11.74%。