结合蚁群算法与基于划分的DBSCAN聚类算法的研究

来源 :东北师范大学 | 被引量 : 11次 | 上传用户:zhairui15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是一种无监督的算法。它是一种将分散着的数据对象划分到相应的类当中的过程。在聚类之后,同一个类当中的数据对象及其相似的,相反,在不同类当中的数据对象则尽可能不相似。基于密度的聚类算法能够根据数据对象临近区域的密度将数据对象聚集到一起。DBSCAN聚类算法是经典的基于密度聚类算法之一。它能够发现任意形状的簇,并且只需要两个全局参数Eps和Minpts。DBSCAN被证明对于复杂的数据集和大规模数据都有较好的处理能力。但是,当数据集不断增大的时候,DBSCAN聚类算法需要较高的内存和I/O支持。并且算法对高维的和复杂形状的数据处理能力较差。因此,基于划分的DBSCAN聚类算法(PDBSCAN)被提出用于解决经典的DBSCAN算法的一些缺点。但是当数据集密度不均匀的时候,PDBSCAN聚类算法效果仍然很差。总的来说,DBSCAN与PDBSCAN算法都对初始参数很敏感。本研究采用将蚁群优化算法与基于密度划分的DBSCAN聚类算法结合(即PACA-DBSCAN)来提高聚类效果。算法首先采用改进的蚁群聚类算法(ACA)和本文提出的基于密度划分的方法来对数据集进行初始化,将数据集划分成N个数据子集。之后再采用DBSCAN聚类算法对每一个数据子集进行聚类。本文通过五个数据集来说明PACA-DBSCAN的聚类结果优于DBSCAN和PDBSCAN算法。另外还利用两个经典的数据集来横向的将PACA-DBSCAN与ACA和KHM等算法进行比较,实验表明PACA-DBSCAN算法效果优于其他类型聚类算法。
其他文献
随着软件开发领域的不断发展和系统规模的日趋复杂,传统软件开发方法暴露出越来越多的问题,如代码重用性差、软件研发效率低、模块间耦合度高等问题。当前软件开发技术已经难
随着互联网技术的不断发展,各种移动平台广泛应用,即时通讯软件日益丰富,在社交网络平台中,微博从一出现就受到了网民的大力追捧。由于其不仅具有实时性、原创性、灵活性等特
在全球3G浪潮和NGN建设高涨的今天,在移动通信向全IP网络架构演进的趋势下,IMS ( IP Multimedia Subsystem, IP多媒体子系统)作为下一代通信网(NGN)实现大融合方案的网络架构,在NG
随着信息技术的发展,各种来自内部和外部的攻击正源源不断地威胁着信息资源,于是保护信息资源的安全已成为一项刻不容缓的任务。访问控制是种行之有效的重要保护措施之一。近
分布式交互仿真技术是指采用协调一致的标准,通过网络将分布在各地的各类型仿真器互连,使用户可以参与交互作用的一种综合环境。这种技术是当今仿真领域的前沿和热点研究内容
随着多媒体计算机技术的发展以及网络技术的推广,信息安全越来越被大众所关注。数字密写技术和数字水印技术的基本思想都是将秘密信息隐藏在载体对象中,但是数字密写和数字水
随着工程科学领域对高性能计算需求的加剧,科学计算的规模迅速膨胀。例如军事、能源、医学、生物、气象和人工智能等领域需要更加快速有效的计算能力。传统的串行计算无法满
随着文明的发展,知识的普及,需要存储和传播的信息量越来越大,信息的种类和形式也越来越丰富,以纸本为基础,借阅为手段的传统图书馆服务机制显然不能满足读者的需要。更由于
随着互联网的高速发展,快餐文化越来越普及。互联网上大量的信息越来越多的以短文本的形式出现,搜索引擎的返回结果和微博等都是这种形式的信息的代表。尤其是微博,在最近的
随着银行自动化建设的迅猛发展,ATM自动取款机在人们的日常生活中扮演的角色也越来越重要。但是,由于ATM机具有露天、无人值守的特点,由使用ATM机而引发的顾客与银行的财产纠