聚类算法及其有效性问题研究

来源 :安徽大学 | 被引量 : 1次 | 上传用户:njliuyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据挖掘中重要的研究领域,聚类有效性是根据聚类理论方法能判别聚类质量高低的指标.。聚类有效性验证方法主要有基于内部或外部准则的统计假设检验,聚类层次的有效性,单独聚类的有效性,Dunn和类Dunn指标,Davies-Bouldin和类DB指标,Gap统计等。聚类算法常见的有分层聚类算法、网格聚类算法、基于密度聚类算法、基于划分的聚类算法、其它聚类算法等。但这些算法常常采用欧氏距离来度量相似性的,而欧氏距离将样品的不同属性之间的差别等同看待,易受变量之间的相关性干扰,不仅影响聚类的速度和质量,还影响聚类有效性指标的性能,有时不能满足实际要求。另一方面,对两点之间进行距离度量的马氏距离具有很多优点,如它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关,由标准化数据和中心化数据计算出的二点之间的马氏距离相同,马氏距离还可以排除变量之间的相关性的干扰。本文探讨了分层聚类算法和欧氏距离的局限性,充分考虑数据的几何结构特征和个体属性,结合马氏距离提出了一种新的属性相似性度量方法及新的聚类有效性函数,并对采用欧氏距离的分层聚类算法进行了改进,实验表明改进算法具有一定的优越性。
其他文献
在信息碎片化、快餐化、屏幕化的今天,微博、微信等自媒体大行其道,而这些新型媒体就像频频冲击人们传统观念的异类,也彻底打破传统媒体独占鳌头的局面。于是它迅速虏获大众
本文首先介绍了鉴别,授权,计费协议的概念,并指出其在移动通信系统中的地位和作用。接着分析了目前最常用的认证计费协议——RADIUS,分析了该协议的优点和缺陷。针对RADIUS的
群集行为是指由简单agent之间的局部交互作用表现出来的全局智能行为,这种行为模式可以用来解决许多实际生活中的复杂问题。而群体稳定地聚集是其有效完成任务的前提条件。本
在本文中,讨论了两类对偶风险模型,其时间间隔为独立同分布的随机变量,它们的分布为广义Erlang(n),求出了到破产时为止的折扣分红总量的矩母函数所满足的积分微分方程,并且得