论文部分内容阅读
分布式数据流已成为现代数据驱动应用产生数据的主要形式,而局部节点的数据虽然独立存储,但彼此之间是相互关联的,因此如何高效地共享局部节点数据来构建全局学习器是分布式在线学习的关键问题.针对此问题,提出一种分布式在线学习的数据共享解决方案,包括基于指数损失的半监督聚类方法和基于协方差矩阵与均值向量的数据共享方法,并证明重构数据集的累计绝对误差小于给定绝对误差界的概率下界.实验表明:所提出的方法可以使节点间的共享数据量维持在一个较低的水平,同时保证基于重构数据训练得到的学习器具有很好的泛化学习能力.