一种基于密度的分布式聚类算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户：hstiantian

【摘要】

：

随着网络信息量的不断增长,人们对获取特定领域信息的需求越来越高。聚类作为一种数据分析的重要方法,旨在根据对象间的相近程度将无标注的数据划分为若干聚簇。与分类不同,

【作者】

：

王岩

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

聚类分布式计算 MapReduce 独立计算单元独立计算块

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息量的不断增长,人们对获取特定领域信息的需求越来越高。聚类作为一种数据分析的重要方法,旨在根据对象间的相近程度将无标注的数据划分为若干聚簇。与分类不同,聚类是一种无监督学习,不需要任何有标注的训练数据。研究者已经提出了很多聚类算法,比如,基于距离的聚类(K-Means)、基于密度的聚类(DENCLUE)和基于网格的聚类(CLIQUE)等等。在现实生活中,聚类在很多领域也有着广泛的应用,例如,自然语言处理、多文档自动文摘、搜索引擎等。聚类是数据挖掘领域一种重要的数据分析方法,它根据数据间的相似度将无标注数据划分为若干聚簇。CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低。为了提高聚类算法的效率,本文提出了一种基于密度的分布式聚类方法MRCSDP。为了将本文提出的聚类算法描述清楚,本文首先给出了聚类的概念与意义,给出CSDP的算法详细内容,并且分析了CSDP聚类方法的优缺点。在之后给出了MapReduce的计算框架的结构,该分布式计算框架主要包含两个阶段一个是Map阶段,一个是Reduce阶段,本文同时给出了一些关于分布式计算生态系统Hadoop的内容,主要涉及HDFS和YARN两种组件。在描述算法的章节中,本文定义了独立计算单元和独立计算块的概念,然后给出了MRCSDP的具体算法细节。为构建独立计算单元和独立计算块,在集群中进行独立计算块的任务的均匀分配,首先需要将数据拆分为若干均等的数据块。然后进行分布式计算得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值计算得到每个数据块中候选聚簇中心。最后从候选聚簇中心中选举出全局的聚簇中心。MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果。为验证算法的正确性和相对于其他分布式算法该算法的优缺点,本文进行了五组实验。第一组实验主要比对不同参数对聚类准确度的影响,第二组,第三组实验进行MRCSDP与原有算法对比,主要对比准确率和运行效率,第四组和第五组实验进行MRCSDP与当前已有的分布式聚类算法的比较。实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速有效地处理大规模数据,并使各计算节点负载均衡,而且在某些领域相对于其他分布式聚类算法该算法有一定的优势。

其他文献

木家具中挥发性有机化合物检测技术

利用环境舱法测试木家具中挥发性有机化合物，并对其预处理条件、标准体积承载率、标准承载率下环境舱换气量、吸附率（回收率）、背景浓度的确定做了细致研究，提出意见与建议。选择

期刊

木家具环境舱挥发性有机化合物(VOC)

休闲素食——豆腐干将迎来蓬勃发展的春天

豆腐，据载是2000年前的西汉时期，淮南王刘安门下术士为求仙丹偶然所得。豆腐的发明是中国食品史上的一项伟大创举，被誉为“东方龙脑”、“中华民族的国粹”、“中国第一菜”。

期刊

休闲食品区域品牌保守估计经销商消费者休闲化原材料销售额高端市场消费量

土家山歌演唱之浅谈

山歌,顾名思义山里的歌,大山挤出来的歌又向着大山喊的歌。这在民歌分类学上就已注释了如此定义。长阳土家山歌它风扉全国扬播海外,作为一地方民歌它获得了应有的名份和地位

期刊

土家山歌下波音声乐演员演唱风格羽调式

行政规范性文件公开研究

政府信息公开是保证行政主体依法行政,保障行政相对人合法权利的有利手段,而规范性文件是整个行政行为的依据和基础,所以也是整个政府信息公开的核心。然而当前我们的行政活

期刊

行政规范性文件公开逐步推进

高校负债办学下的财务管理研究

近年来，高校负债办学的现象越来越普遍。负债办学在解决资金来源不足问题的同时，也给学校带来了沉重的债务负担，带来了财务管理上的困难。本文在分析高校负债办学原因的基础上，从

期刊

高校负债财务管理

考虑碳排放的化石能源和电解水制氢成本

考虑碳排放,对化石能源制氢工艺、电解水制氢工艺的制氢成本进行比较。化石能源制氢工艺包括煤制氢、天然气制氢、甲醇制氢,电解水制氢工艺包括采用火电的低谷电电解水制氢、

期刊

化石能源制氢电解水制氢碳税敏感性分析

布局及布置设计问题求解自动化的理论与方法综述

布局及布置设计问题是设计领域的一个重要部分,在工程实践中有着广泛的应用,它的求解自动化理论及方法对于设计自动化领域具有典型意义.由于其本身具有建模复杂性和NP完全的

期刊

布局智能工程复合知识模型人机结合虚拟现实

仿生耦合技术在流体机械领域的应用

仿生学是国内新兴的边缘学科。本文综述了仿生耦合技术在流体机械领域的应用现状,指出实验流体力学及计算流体动力学相结合,是仿生耦合技术在流体机械领域研发的发展趋势。

期刊

仿生学耦合技术流体机械减阻降噪应用

“十三五”期间我国管线市场前景与预测

从油气输送行业、电工行业、煤炭行业、钢结构行业、城市给排水和供热行业、海洋工程行业、交通运输行业分析和预测了“十三五”期间我国管线市场前景。认为：虽然近年来相关油

期刊

十三五管线市场前景预测

我国替代计量学研究现状及发展趋势

选取CNKI作为数据来源库,利用TDA、Ucinet、VOSviewer等知识图谱分析工具和社会网络分析方法,从文献增长特征、研究主体、研究热点和学科分布等多个维度对我国替代计量学研究

期刊

替代计量学知识图谱社会网络信息可视化

一种基于密度的分布式聚类算法

其他学术论文