聚类分析中的最佳聚类数确定方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:winbourbit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为无监督学习方法的一种,聚类分析是从无标记数据集中获取信息和知识的重要手段,是数据挖掘、统计学、模式识别等领域的重要研究内容。通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来。随着数据挖掘和人工智能技术的不断发展,对于聚类分析的研究也得到了较大的发展,目前聚类分析已经被广泛应用于客户推荐、模式分割、视频图像处理等不同的领域。然而,当前已有的聚类分析方法依旧存在着许多不足之处。作为聚类分析中最为重要的一部分,最佳聚类数确定方法是决定聚类质量的关键因素。围绕着这个主题,本文深入的研究了聚类分析中的聚类算法和聚类有效性评价,主要工作如下:(1)针对现有的部分聚类分析方法存在的聚类效果不稳定、无法对多种结构的数据集进行正确聚类的问题,我们将K-means算法和AHC(Agglomerative Hierarchical Clustering,凝聚层次聚类算法)算法的聚类思想相结合,提出了一种混合聚类算法Kmeans-AHC。该算法可以对多种数据结构的数据集进行有效聚类,并且相对传统的AHC算法有效降低了时间复杂度。(2)其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(Difference of Average Synthesis degree,平均综合度之差),以此来评估KmeansAHC算法聚类结果的质量。新的聚类有效性指标在对非凸型数据集进行有效性评价时要优于当前已有的常用聚类有效性指标。(3)最后,将Kmeans-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳聚类数和最优划分的有效方法。实验结果验证了本文提出的聚类分析方法的有效性。文章的最后,我们总结了本文的主要工作和研究成果,分析了本文提出的算法和指标存在的局限性,针对这些问题提出了一些未来的改进和研究方向。
其他文献
一、引言《英语课程标准》(2011)提出:英语教改的一个重要方面是关注学生的情感态度的发展,把学生情感态度的培养渗透到学科教育和教学之中。人本主义心理学家罗杰斯也认为,教育的
目的探讨乳腺癌患者相关粒细胞减少(CIN)与预后的关系。方法选取2010年9月5日至2011年12月29日中国医科大学附属第一医院乳腺外科327例Ⅰ~Ⅲ期乳腺癌患者,患者均进行根治性手
诗歌是文学艺术中的明珠,其中幼儿诗歌具有意境美、语言美、形象美、心灵美、结构美的特点,符合幼儿的心理和审美特点。从幼儿的认知规律来看,科学积极地开展诗歌教学对于幼儿的
目的探讨冠状动脉钙化的临床意义. 方法对冠状动脉钙化者的临床症状、实验室检查指标进行分析对照. 结果 36例冠状动脉钙化者中15例有程度不同的心前区不适, 5例有心律失常,
教育在朝着专业化迈进。在英语教育领域中,教师也应该与时俱进、求新求变,不断发展其专业知识与能力。就英语教师专业成长而言,可分成教师反思、教师认同、教师实践三个方面。教