论文部分内容阅读
得益于“大数据”时代的到来以及高性能计算设备的发展,深度学习已成为当前人工智能领域的一大热点话题。而如何高速地进行深度神经网络的训练一直是该领域的难点。由于深度神经网络架构的复杂性以及其训练的困难性,如何有效地进行深度神经网络的训练越来越多地受到了学者们的关注。深度神经网络的训练难度,随着网络深度的加深而不断增大。其中重要的原因是由于深度神经网络本身所依赖的反向传播算法。由于网络深度的加深,反向传播算法不可避免地导致了梯度弥散问题。针对于此,不同研究者提出了不同的解决方案,如设定不同的激活函数,设定自适应的学习方法,或是提出新的正则化方式等等。而批标准化算法是一种参数重初始化方式,使得训练深层网络的过程变得稳定。到目前为止,大多数深度神经网络的架构依赖于在前馈网络中插入批标准化层,这个过程虽然使得训练更深层的神经网络变为可能,但也同时增大了计算量,增大了时间开销,并与已经出现的正则化算法有着某些内在冲突,使得模型的整体效果变差。本文从协变量偏移的角度,解释了深度神经网络中,隐层间的输入分布不一致问题。并以此为理论基础介绍了批标准化层的作用。并针对深度神经网络批标准化算法本身的冗余性以及其配合其它正则化算法存在的冲突,提出了一种简化的批标准化层算法Fast-Dropout。并且提出了一种全新的架构方式,使得算法能够有效地配合其它正则化算法。本文通过与原有批标准化算法在时间开销上的对比,研究其加速效果,并通过在两个不同的数据集上的分类问题验证该算法结合其它正则化算法在分类准确率上的提升。实验结果表明,本文提出的Fast-Dropout算法相较于原有的批标准化算法,有着更小的时间开销,可以有效结合其它正则化算法,带来分类准确率上的提升。