基于MPI的层次聚类算法的研究及实现

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:mikelau1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘领域涉及很多方面的知识,聚类分析是该领域中的技术之一,也是该领域中重点研究内容之一。聚类分析实际上是对数据集进行分类、分组的一种方法。聚类分析应用广泛,在机器学习、生物学、统计学、市场营销等等很多领域都被用到,在这些领域中聚类分析起到了至关重要的作用,做出了不小的贡献。聚类算法是聚类分析中起着决定性作用的部分,聚类分析的中的聚类算法有很多,其中层次聚类算法是主要算法之一。层次聚类算法的特点是结构简单、运行时速度快,并且在遇到大规模数据集的时候,它能够对其进行有效的处理。该算法是实际应用中聚类分析的支柱。层次聚类算法在运行时,会对所有待聚类数据进行距离计算,得到距离矩阵,然后按照矩阵中元素的值对类进行合并操作,产生新的类,但是每一次合并操作之后,要再次对需所有类进行类间距离的计算,这样的操作使得计算的时间复杂度很高。随着数据规模的不断递增,提高聚类效率和聚类质量也是一个刻不容缓的研究方向。基于上述分析,针对层次聚类算法存在的问题,本文对传统层次聚类算法进行了改进,通过把类之间的距离按照一定顺序进行排序,以此来解决合并类后还要重新计算距离的问题,在此基础上本文又结合了最小生成树的算法,即克鲁斯卡尔算法对层次聚类算法做了进一步改进,总体上使得算法可伸缩性得到提高,计算复杂性得到降低。为进一步提高算法执行效率,论文同时研究了并行层次聚类算法的并行实现。选用局域网环境,并行虚拟机PVM和LINUX,共同搭建的机群系统作为并行计算平台。在并行程序的模型上采用了基于MPI消息传递接口的模型。论文在时间复杂度问题上,进行了理论分析,并且进行了实验,从这两个方面对并行算法进行了评价。实验结果表明:基于MPI的层次聚类算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。
其他文献
随着数字视频技术的发展,计算机视觉研究技术也日益成熟,而作为计算机视觉里较为重要组成部分的运动目标检测与跟踪技术的研究也引起了人们的浓厚兴趣。本文主要是对动态图像
目前,国内外已经围绕Web服务组合各个方面展开了研究工作,并取得了相应的成果。但是Web服务组合作为一个新兴的并且在不断发展的项目,在探索实践以及运用的过程中问题依旧在不断
云计算是目前国内外各机构的研究热点之一,是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,是新兴的一种商业计算模
随着信息技术的发展,网络存储技术迅速发展,IP-SAN成为一种重要的网络存储解决方案。随之而来的数据集中化存储为数据的容灾提出了更高的要求。传统数据备份技术的恢复点目标已
粗糙集理论利用上近似集和下近似集的概念解决了经典逻辑理论中模糊概念的可计算性问题,因此它在处理不完全、不精确数据时有其独到的优势:1)粗糙集理论不需要先验知识;2)相对
数字图像隐写是一种将秘密信息嵌入到可公开的数字图像中进行信息隐藏并实现信息传递的隐蔽通信技术。其可用于军事、商业等领域,在为社会带来一种新的隐蔽通信手段的同时也带
随着对无线传感器网络研究的加深,无线传感器网络已经被应用于实际的环境监测,火灾监测是其中一个重要的应用。但是目前基于无线传感器网络的火灾监测系统存在两个问题:(1)由于
服装产品品质很大程度受所用的纤维种类和纤维混合比例确定。纺织品中主要采用的纤维为棉、毛、天丝、苎麻等。对纺织纤维的判别是我国纺织进出口检验的一个重要环节。目前基
可扩展标记语言(eXtensible Markup Language,XML)具有平台无关性、自描述性、简单性等优点,它已迅速发展成为Internet上数据表示和交换的标准。互联网上XML数据的不断增长,
图像处理面临数据量大,处理速度慢等问题,人们研究和采用基于并行机或并行集群的图像并行处理技术,以提高图像处理的效率。随着多核架构的出现,多核并行技术成为提高图像处理