论文部分内容阅读
传统深度神经网络虽在各个领域都取得了优异的成绩,然而庞大的参数量使其难以迁移到移动设备等资源受限的平台,并且也会造成训练的低效。而张量环(Tensor Ring)模型具有低秩的结构,能通过少量参数表征一个更广大的空间,因此能够对传统深度神经网络进行压缩。为了能够减轻参数冗余的问题以及提升张量环模型的能力,本文将结合张量环和神经网络进行如下两个方面的工作:1)针对循环神经网络体积过大的问题,提出更为紧凑的张量环模型,降低训练资源消耗。2)针对张量环卷积网络训练波动大的问题,设计一种新的初始化方法,用以稳定训练的过程。循环神经网络能出色地处理序列数据,然而面对视频这样的高维数据,输人-隐层矩阵会急剧扩大,因此导致大量参数冗余,使得模型训练效果欠佳。针对这个问题,本文提出了张量环循环神经网络(TR-RNN),通过将输人-隐层矩阵分解为张量环形式,极大地降低了模型的参数量。相较于Yang等人提出的张量火车循环神经网络(TT-RNN),TR-RNN不仅不会对超参数过于敏感,还拥有更简约的结构。该工作具有以下创新:1)第一个将张量环分解引入循环神经网络;2)实现34192倍超高倍率压缩,近乎为TT-RNN的一倍,与此同时达到最高精度;3)通过使用预训练模型提取的特征,TR-RNN能得到更佳的表现,并能达到与先进的非压缩模型竞争的水平。在张量环卷积网络取得良好结果的同时,也暴露出网络不够稳定,容易出现爆炸或弥散的问题。因此本文从控制数据流方差传递的角度出发,提出了适用于张量环卷积网络的初始化方法,令数据流和梯度在传递过程中更为缓和,以此提升网络的稳定性。本文提出的新初始化贡献如下:1)平滑数据流以及梯度的传递,抑制网络过高的波动;2)提升网络的性能,实现更高的精度;3)设置灵活,能够自适应各种秩下的张量环模型。