划分聚类与基于密度聚类算法的改进方法研究

被引量 : 0次 | 上传用户:yizeswing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。聚类分析是数据挖掘领域中重要的研究课题,用于发现大规模数据集中未知的对象类。因此,聚类算法的研究具有重要的意义和广阔的前景。本文针对传统K-means聚类算法和基于密度聚类算法进行了重点研究并对所存在的问题提出了改进算法。K-means聚类算法在数据挖掘领域具有非常重要的应用价值。但随着应用领域的拓展和新的问题需求,K-means本身存在的局限越来越突出。首先,随机选取的初始值可能会导致不同的聚类结果,甚至会造成无解。其次,K-means算法采用了典型的爬山搜索方法,易于陷入局部最优。本文针对K-means聚类算法存在的缺陷提出了KSNN聚类算法。KSNN在数据集中搜索中心点,依据中心点查找数据集个数,为K-means聚类提供参数。有效克服了K-means需要人工设定聚类个数的问题,同时具有较好的全局收敛性。其次,为了解决数据集密度分布不均匀等实际应用问题,本文改进了基于密度的聚类算法,提出了CABONW聚类算法。CABONW首先利用最近邻居节点的方法构建出数据集中节点间的自然链接关系,然后建立节点间优先级,并将其用于对数据节点的有效关系进行排序,生成顺序表。最后,通过对顺序表的深度优先搜索生成最终的簇。通过与DBSCAN、OPTICS等基于密度聚类算法的对比实验证明,CABONW很好地解决了密度分布不均匀的数据集的处理,执行效率优于DBSCAN和OPTICS等基于密度的聚类算法。最后,本文设计了聚类分析系统原型,并将KSNN和CABONW等聚类算法加入到系统中。此原型系统可用于教学对比和实际数据集的分析,具有实际应用价值。通过理论分析和实验结果证明,KSNN和CABONW能够很好的解决K-means聚类算法和基于密度聚类算法所存在的缺陷,并且在聚类分析系统原型中得到了验证。
其他文献
以氰基乙酸乙酯为起始原料,经4步反应得到目标化合物4-正丁基-3,4-二氢-1H-噻吩并[2,3-e][1,4]-二氮杂卓-2,5-二酮,反应条件温和,后处理简单.经红外、核磁分析,所得数据与其
<正>当前,社会利益格局多样化,价值观念多元化,思想文化多形态,广大工商干部主动适应形势,适应社会,整体素质得到了很大提高。但我们的基层部门也暴露出片面强调个体能力、偏
第一部分风湿性心脏病心房颤动患者的心房结构变化目的:观察风湿性心房颤动患者的左心房结构的变化,研究心房结构重构在心房颤动(房颤)的发生和维持中的作用。方法:选择需要
传统的规划设计CAD系统的三维功能很弱,难以进行空间关系分析和效果表达;而现有的城市仿真系统不具备规划设计能力,不能应用到规划设计过程中。结合CAD、3D、VR技术开发了一
从当前移动宽带业务的发展以及用户越来越重视上网体验的趋势,提出传统业务评价方式已经不能适应当前移动宽带业务的发展。阐述了国外移动宽带业务评价活动的开展,传统业务评
计算机技术的进步和工程需求促进了计算力学的发展;结合水电/核/航天/航空/舰船/工程机械/汽车开发实践,总结CAE发展经验,并对计算力学未来发展做进一步展望.
将非线性滤波算子融入到万有引力边缘检测算法中,提出了一种新的边缘检测方法。通过计算图像中每个像素点的非线性梯度值,构造以该梯度值为自变量的归一化函数,用该函数值代
目的:建立烟雾暴露小鼠肺气肿和肺纤维化模型,为探讨CD4+CD25+调节性T细胞(CD4+CD25+Treg)在其发病机制中作用奠定基础。方法:24只健康雄性昆明小鼠(18-20g)随机分为单纯熏烟
1990年12月和1991年6月,上交所和深交所相继成立,我国证券市场正式形成,作为一个新兴证券市场,我国证券市场在短短十多年的时间里取得巨大的成就。但在证券市场的发展过程中,学术
当今的软件日趋复杂,软件开发已成为涉及众多权益相关者的一个长期复杂的过程。在这个过程中,形成了目标系统的多个部分模型,由于不同权益相关者所持的不同出发点,这些模型可