一种基于密度的分布式聚类算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:hstiantian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息量的不断增长,人们对获取特定领域信息的需求越来越高。聚类作为一种数据分析的重要方法,旨在根据对象间的相近程度将无标注的数据划分为若干聚簇。与分类不同,聚类是一种无监督学习,不需要任何有标注的训练数据。研究者已经提出了很多聚类算法,比如,基于距离的聚类(K-Means)、基于密度的聚类(DENCLUE)和基于网格的聚类(CLIQUE)等等。在现实生活中,聚类在很多领域也有着广泛的应用,例如,自然语言处理、多文档自动文摘、搜索引擎等。聚类是数据挖掘领域一种重要的数据分析方法,它根据数据间的相似度将无标注数据划分为若干聚簇。CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低。为了提高聚类算法的效率,本文提出了一种基于密度的分布式聚类方法MRCSDP。为了将本文提出的聚类算法描述清楚,本文首先给出了聚类的概念与意义,给出CSDP的算法详细内容,并且分析了CSDP聚类方法的优缺点。在之后给出了MapReduce的计算框架的结构,该分布式计算框架主要包含两个阶段一个是Map阶段,一个是Reduce阶段,本文同时给出了一些关于分布式计算生态系统Hadoop的内容,主要涉及HDFS和YARN两种组件。在描述算法的章节中,本文定义了独立计算单元和独立计算块的概念,然后给出了MRCSDP的具体算法细节。为构建独立计算单元和独立计算块,在集群中进行独立计算块的任务的均匀分配,首先需要将数据拆分为若干均等的数据块。然后进行分布式计算得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值计算得到每个数据块中候选聚簇中心。最后从候选聚簇中心中选举出全局的聚簇中心。MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果。为验证算法的正确性和相对于其他分布式算法该算法的优缺点,本文进行了五组实验。第一组实验主要比对不同参数对聚类准确度的影响,第二组,第三组实验进行MRCSDP与原有算法对比,主要对比准确率和运行效率,第四组和第五组实验进行MRCSDP与当前已有的分布式聚类算法的比较。实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速有效地处理大规模数据,并使各计算节点负载均衡,而且在某些领域相对于其他分布式聚类算法该算法有一定的优势。
其他文献
利用环境舱法测试木家具中挥发性有机化合物,并对其预处理条件、标准体积承载率、标准承载率下环境舱换气量、吸附率(回收率)、背景浓度的确定做了细致研究,提出意见与建议。选择
豆腐,据载是2000年前的西汉时期,淮南王刘安门下术士为求仙丹偶然所得。豆腐的发明是中国食品史上的一项伟大创举,被誉为“东方龙脑”、“中华民族的国粹”、“中国第一菜”。
山歌,顾名思义山里的歌,大山挤出来的歌又向着大山喊的歌。这在民歌分类学上就已注释了如此定义。长阳土家山歌它风扉全国扬播海外,作为一地方民歌它获得了应有的名份和地位
政府信息公开是保证行政主体依法行政,保障行政相对人合法权利的有利手段,而规范性文件是整个行政行为的依据和基础,所以也是整个政府信息公开的核心。然而当前我们的行政活
近年来,高校负债办学的现象越来越普遍。负债办学在解决资金来源不足问题的同时,也给学校带来了沉重的债务负担,带来了财务管理上的困难。本文在分析高校负债办学原因的基础上,从
考虑碳排放,对化石能源制氢工艺、电解水制氢工艺的制氢成本进行比较。化石能源制氢工艺包括煤制氢、天然气制氢、甲醇制氢,电解水制氢工艺包括采用火电的低谷电电解水制氢、
布局及布置设计问题是设计领域的一个重要部分,在工程实践中有着广泛的应用,它的求解自动化理论及方法对于设计自动化领域具有典型意义.由于其本身具有建模复杂性和NP完全的
仿生学是国内新兴的边缘学科。本文综述了仿生耦合技术在流体机械领域的应用现状,指出实验流体力学及计算流体动力学相结合,是仿生耦合技术在流体机械领域研发的发展趋势。
从油气输送行业、电工行业、煤炭行业、钢结构行业、城市给排水和供热行业、海洋工程行业、交通运输行业分析和预测了“十三五”期间我国管线市场前景。认为:虽然近年来相关油
选取CNKI作为数据来源库,利用TDA、Ucinet、VOSviewer等知识图谱分析工具和社会网络分析方法,从文献增长特征、研究主体、研究热点和学科分布等多个维度对我国替代计量学研究