论文部分内容阅读
近年来,随着互联网和信息技术的发展,人工神经网络逐渐成为信息技术领域的研究热点,在图像识别、语音翻译和视频检测等媒体领域有着广泛的应用。人工神经网络算法种类繁多,可以通过不同的权重系数实现不同的功能。粗粒度可重构架构可以通过配置实现不同的算法功能,兼备了高灵活性和高能效性。本文结合可重构架构和神经网络算法的共性特征,对面向媒体处理的可重构神经网络系统进行了研究。本文从媒体算法和神经网络算法的特征入手,选取多层感知器(Multi-Layer Perceptron,MLP)处理图像和视频编码中运算量大的部分算法。本文分析了面向媒体处理的可重构神经网络系统结构中的权重、配置和计算数据的数据流特征,为系统优化奠定基础。在可重构神经网络阵列方面,本文通过AxBench近似计算平台,得出了相对较优的阵列规模。针对MLP网络的数据流特征,设计了一种基于计算负载动态自适应的路由结构,降低了阵列路由的复杂度,提高了阵列的计算性能和PE利用率。通过配置压缩和权重分组的方法减少了片上存储的硬件开销。在系统调度方面,本文一方面结合媒体数据采样关系,设计了针对权重、配置的调度策略和调度模块,对权重和配置进行预加载,填充了流水气泡,提高了系统的计算性能。另一方面,结合视频编码多个模块间的数据调度特征和运动矢量可预测特征,本文设计了基于动态预取机制的多模式数据调度策略及调度模块,既解决了多个模块间的数据交互问题又以较少的存储开销实现了较高的预取命中率,提升了访存性能。本文设计的基于计算负载自适应的路由结构相比单一的Mesh路由结构计算性能提升了 30.1%,PE利用率提升了 16.7%。此外,在配置压缩和权重分组的基础上,配置和权重的调度模块又将系统性能提升10.0%。基于高能效动态预取机制的数据缓存模块在仅用12KB存储开销的情况下取得了90%以上的预取命中率,访存性能提升了 39%~45%。本文采用SMIC40nm的工艺对基于可重构神经网络媒体处理系统进行了综合验证。实验结果表明,图像模式可以实现17fps~87fps@480P的编码操作,最低能效0.102nJ/pixel;视频模式支持30fps@480P&720P&1080P的编码操作,在200MHz、1.0V下对应的功耗为197.63mW。