论文部分内容阅读
在移动互联网带来了爆炸增长的数据的前提下,人工智能进入了飞速发展的阶段。但随着人们对数据隐私的日益关注,世界各国相关法案的出台和完善,如何在保护数据隐私的情况下,进行大数据研究已经逐渐受到学术界和工业界越来越多的关注。在这样的背景下,作为打破数据孤岛、释放人工智能应用潜能的机器学习技术,联邦学习无疑是当前最受工业界和学术界关注的研究方向之一。联邦学习主要解决了以下困境:一是由于互联网企业巨化,各个企业之间的数据并不互通,所形成的数据孤岛问题;二是用户数据隐私的问题。联邦学习因其实用的前景受到来自学术界和工业界的关注。然而,联邦学习从研究到技术落地还面临着很多问题,其中之一便是其效率不高。究其原因,阻碍其效率提升的并不是具备充足算力的网络终端设备,反而是传统训练中经常忽视的通信环节。本文对通信效率的提升主要从两个方面进行考虑。其一,本文以实际情况中经常出现的非独立同分布数据(Non-ⅡD)作为切人点,提出了一种数据预处理方法。该方法可以有效减少通信轮次,提高联邦学习通信效率。其二,在通信过程中,通过对通信内容进行压缩处理,减少通信量,从而提升通信效率。同时,为了加快模型训练,本文改进了中心服务端传统的动态权重方法。针对非独立同分布数据,本文引入条件生成对抗网络,通过去Non-ⅡD化,使得各个参与节点的数据趋于独立同分布(ⅡD),从而有利于中心模型的收敛,减少通信轮次。针对通信量这一问题,本文采用压缩梯度的方法,同时引入AdaGrad优化算法,利用二者的结合,使得训练模型在大大减少上传量的同时能较早的进入收敛状态,实现通信效率的提升。在中心服务端,本文尝试对传统分配权重的方案进行改进。为达到激励参与节点,加快收敛速度的目的,本文根据贡献度对参与节点分配权重。该方法于实验中达到了良好的效果。该法不仅在通信效率方面有所提升,同时还能应用于参与节点的成果分配中,以此更好的促进节点参与运算的积极性。从而于工业方面能更好地促进技术的落地。通过将以上所有的改进点进行有机结合,本文提出了联邦学习的一种通信高效新框架。该框架主要流程如下:在训练之初,对参与节点的数据进行去Non-ⅡD化;训练之中,对于参与节点生成的梯度更新进行压缩,再进行AdaGrad优化;中心集聚时,服务器端通过对参与节点贡献量进行评估,对节点进行动态赋权。在公开数据集上的实验结果说明,本方法可以在缺失数据的情况下仍旧保持基准方法的准确率及收敛速率,同时能有效地压缩上传量。