基于模型融合的迭代式分布式聚类框架的设计与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:yongsheng0550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息总量巨大,分散存储在不同地点,涉及隐私保护的信息增多等是当今数据信息所呈现出来的新特点。由于网络带宽,隐私保护和单机处理能力有限等因素的限制,难以将这些信息聚集起来进行统一的聚类分析。因而,分布式聚类技术成为研究热点。但是现有的分布式聚类算法或框架存在着必须修改单机算法,聚类结果融合方法简单而易受数据分布局部性影响等问题。针对存在的问题,本文提出一个基于模型融合的迭代式的分布式聚类框架。本文首先阐述了基于模型融合的迭代分布式聚类算法框架的设计原理。框架主要由局部聚类阶段和全局优化阶段两个部分组成,其优点是不必修改原有的单机算法,迭代式的过程避免了数据分布局部性带来的影响,同时分布式环境中的网络带宽限制和数据隐私保护的问题也得到了解决。其次,根据提出的算法框架,本文实现了一个分布式K-means算法,即M-K-means。同时将M-K-means与单一节点K-means算法和采用weighted mean方式进行结果融合的分布式聚类算法进行了实验结果对比与分析。最后,本文将M-K-means在扩展到云计算环境Hadoop中。针对Hadoop不适合处理迭代式算法的问题,本文针对M-K-means的特点对Hadoop工作过程进行了优化,并将优化后的M-K-means与Mahout K-means进行了结果对比与分析。根据实验结果与分析,本文提出的算法框架在提高聚类算法效率的同时也在一定程度上增加了分布式聚类结果的准确性,扩展到云计算环境中也有很好的表现,具有良好的实际效果。
其他文献
广播加密提供一种在非安全信道上同时传输数字信息给多个授权用户的方法,广泛应用于付费电视、卫星广播通信、数字版权产品(如CD/DVD)的分发以及多媒体保护等领域。目前在广
基于深度相机的体感交互具有设备简单、对环境要求低等优势,成为近年来研究的热点。这一课题目前还存在着一些关键技术难题,如个体识别与跟踪、动作分析、交互命令设计等。本
学位
随着新发现的蛋白质一级结构数量不断增长,未知蛋白质二级结构的数量与已知蛋白质一级结构数量之间的差距不断被拉大,这就迫切需要利用自动化方法来预测蛋白质二级结构。利用人
“兵马未动,粮草先行”,没有充足的物资保障,军队的作战、生活、训练任务就难以开展。2001年中央军委16号文件批转《总后勤部关于深化军队物资、工程、服务采购改革总体方案
数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘与知识发现在各式各样的数据应用领域中都扮演着非常重要的角色。数据挖掘的目的在于从大量的数据中抽
由于三维编织复合材料自身的一些优点,如整体性能好、不易分层、力学性能好等等,越来越多的受到材料界的关注。三维编织物表面参数的测量,可以反映出其内部结构特点,对编织物性能
随着各种无线通信网络和GPS传感器网络的不断发展,各种移动对象的轨迹数据大量地被收集,这些数据中隐藏了很多有用的知识,因此,非常有必要对这些数据进行有效的挖掘和分析。移动
高光谱遥感图像目标检测是高光谱遥感理论与应用研究的重要环节。由于高光谱图像数据的复杂性,如波段间非线性相关、普遍存在混合像元、训练样本少、噪声影响、同物异谱、同
学位