K-means算法并行实现与性能优化

来源 :天津理工大学 | 被引量 : 5次 | 上传用户:bsqtld0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-means算法是最常用的聚类算法之一。由于K-means算法易于理解和实现,并且执行效率比一般聚类算法要高,所以在模式识别、机器视觉和信息检索等领域得到了广泛应用。本文通过CUDA技术实现了K-means算法,并对算法实现的性能以及扩展性进行了研究。CUDA技术是NVIDIA公司提出的GPU并行计算解决方案。GPU是专门用于图像运算工作的处理器,而图像处理任务具有并行和计算密集的特点,所以GPU非常适合于并行计算工作。在使用CUDA实现K-means算法的过程中,一方面需要了解CUDA的技术特点,另一方面需要考虑算法的实现细节。为了提高算法的性能,本文通过在保存分组信息的结构中加入标记信息,实现了算法循环条件的并行计算,使用流机制实现GPU端数据传输和计算的并行,使用异步机制实现了主机端和设备端操作的并行。通过对所涉及到的各种存储器进行研究,论文优化了算法的访存操作。在处理大数据集和小数据集时,本文算法采用了不同的实现。通过这种分类处理方法,算法实现了性能和可扩展之间的平衡。最后,通过测试,本文提出的并行K-means算法在性能和扩展性上都有所提高。在一定条件下,算法能够满足处理较大数据集的要求。在此基础之上,作者将会不断对算法进行性能优化,希望能够取得更好的效果。
其他文献
机动目标跟踪技术在军事和民用领域上有重要的应用价值,受到了学者的广泛关注。目前,随着科学技术的不断发展,目标的机动越来越复杂,如何提高复杂的机动目标跟踪性能尤为重要
油田地质体三维展示中空间对象的可视化一直是地学关注和研究的重要领域,也是多尺度三维地质体数字表征关键技术研究及应用的重点攻关内容,其目标在于实现三维地质体的数字表征
物联网技术是一种综合性技术,它包括了传感技术、无线通信技术、网络技术、嵌入式技术以及海量数据处理技术等诸多支撑技术。物联网技术的核心思想是利用传感技术采集现实环境
复合材料的图像分析是近年来国内外一个比较活跃的研究领域,其研究发展对于推动材料制造业的发展起到了非常重要的作用,有着广阔的应用前景。本文主要应用基于多样权值的离散距
近年来,随着计算机、网络、微电子等技术的快速发展,监测系统在工业、农业、环境监测等领域应用越来越广泛。监测系统主要由数据采集硬件设备和监测软件构成,然而,近年来监测系统
在现实世界中,往往存在着许多动态的多目标优化问题,由于此类问题具有多个依赖时间或环境的目标,并且这些目标可能是相互冲突、不可公度的,加之此类问题的最优解会随着时间而
序列模式挖掘是数据挖掘领域中一个活跃的研究分支,有着广泛的应用前景,如顾客购买行为习惯分析、Web操作分析以及生物序列分析等,目前已经得到了广泛地研究。   但随着信息
随着农业技术的不断发展,水稻栽培技术已经从追求高产的单一目标朝着高产、优质、高效、生态、安全的综合目标迈进,一种新型的水稻栽培技术也随之产生,即水稻精确定量化栽培技术。同时,信息化技术的深入使得有关农业决策等农业信息化管理系统也日趋完善,从而产生了大量与农业相关的业务数据。传统的应用中,这些数据大部分只能简单地存储在数据库中,隐含在历史性数据中的潜在信息被闲置,没有得到充分的利用,造成了极大的信息
虽然合作行为广泛存在于自然界和人类的社会系统中,可是根据达尔文的生物进化论,合作并不是一个最优的策略。因此,如何解释合作行为的出现在学术界一直是一个热点课题。其中,
随着网络应用的快速发展,XML(eXtonsible Markup Language)数据正成为主流的数据形式,如何对XML数据建立有效索引进而实现高效查询是当前的研究热点。大部分XML相关索引和查