论文部分内容阅读
近些年,云计算、物联网、大数据等技术的快速发展,推动了新型点对点分布式网络的应用,点对点分布式网络数据中隐含大量对预测或是决策有益的信息。本论文的研究目的是实现一种能够对点对点分布式网络中数据进行有效分析的聚类算法。论文设计实现了四种基于随机特征的集中式核模糊聚类算法,一种基于随机特征的多核分布式协同模糊聚类算法。(1)首先,本文设计了一种基于随机特征的单核模糊聚类算法,该算法使用随机特征方法近似核函数,在随机特征空间中进行模糊聚类。实验测试中,该算法得到了与传统核聚类算法相近的聚类结果,但是计算复杂度远远低于传统核聚类算法。此外,在此部分测试中,本文比较了两种不同的随机特征方法,测试结果说明准蒙特卡洛特征可以比随机傅里叶特征更好的近似核函数。(2)考虑到随机特征空间中的不同维度对聚类结果的重要性可能不同,本文设计了基于随机特征的单核属性加权模糊聚类算法。该算法将原始数据映射到随机特征空间后,为随机特征空间中的每个维度赋予权重,并使用最大熵正则化方法在聚类过程中自动的优化权重分布。实验测试的结果说明,该算法可以有效的发现随机特征空间中的重要维度,为重要维度赋予较大的权重,使其在类的形成过程中发挥更大的作用,提高聚类效果。(3)考虑到单核聚类算法的效果易受核函数选取的影响,本文设计了一种基于随机特征的多核核加权模糊聚类算法。该算法使用随机特征方法近似多核核函数,并使用最大熵方法自动优化核函数的权重分布。在实验测试中,该算法成功的为重要的核函数分配了较大的权重,得到了理想的聚类结果。并且,该算法的计算复杂度远远低于传统的多核聚类算法。(4)为了进一步提高聚类效果,本文设计一种基于随机特征的多核属性加权模糊聚类算法。该算法使用随机特征方法近似多个核函数,并将多个随机特征空间融合成一个组合的随机特征空间,为组合的随机特征空间的每个维度赋予权重,使用最大熵正则化方法在聚类过程中自动的优化权重分布。测试结果说明,该算法不但可以有效的发现重要的核函数,还可以发现重要的核函数对应的随机特征空间中重要的维度,显著的提高了聚类效果。(5)最终,基于上述算法,本文实现了基于随机特征的多核分布式协同模糊聚类算法。在该算法中,分布式点对点网络的每个节点首先独立的将其数据映射到组合的随机特征空间中,并为组合特征空间的每个维度赋予权重。随后,各节点交替的进行聚类与信息交换。在聚类过程中,各节点使用其本地数据和从相邻节点交换来的信息进行聚类,使用最大熵正则化方法优化维度权重分布。在信息交换过程中,各节点与其相邻节点交换类中心与权重。最终,各节点都达到聚类停止条件,得到全局一致的聚类结果。在测试中,该算法成功地完成了对模拟分布式数据的聚类任务,优化了维度权重分布,得到了符合预期的聚类结果。