面向聚类评价的有效内部指标框架研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zhangrong825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
过去几十年,研究者们提出了大量适用于硬聚类的聚类有效性指标。然而,现有的聚类评价方法会受到各种数据特征的影响。例如,带有噪声的数据、不同密度的数据、任意形状的数据等等都可能影响内部指标的性能。针对以上问题,本文在分析影响聚类算法性能的主要因素的基础上研究了聚类有效性评价,提出了三种新的聚类有效性内部指标。主要工作内容如下:(1)为了克服现有的度量方法作为单连接聚类的簇内紧密度的缺点,本文使用最小生成树的最长边作为簇内紧密度,提出了一种针对单链接算法的综合聚类有效性指标(synthetical clustering validity index,简称SCV)。该指标根据统计方法的不同又可以分为amSCV、gmSCV两种。(2)SCV指标在评价单链接算法时表现良好,但是不适用其他层次聚类算法。为此,本文提出了一种广义综合聚类有效性指标(generalized synthetical clustering validity index,简称GSCV)。该指标采用自适应相似性度量策略对聚类结果进行评价,避免了聚类算法与内部指标之间的相似性度量方法的不兼容性造成的内部指标性能下降的情况。根据统计方法的不同,GSCV指标又可以分为amGSCV、gmGSCV两种。本文分别在15个模拟数据集(具有不同维数、空间分布、重叠度和规模)和4个真实数据集上验证新指标的性能,并与其他七个常用的内部指标进行了对比。实验结果表明:SCV、GSCV指标能够准确获取在簇密度、偏态分布、几何结构等方面不同的数据集的最优聚类数目。(3)SCV指标和GSCV指标可以统一为一个聚类有效性指标框架(Hierarchical clustering validity framework,简称HCVF)来评价层次聚类。然而,由于HCVF建立于层次聚类算法生成的层次结构基础之上,因此该框架只能用于评价层次聚类算法生成的聚类结果。为解决这一问题,本文对子类概念进行了延伸以使新指标能够适用于非层次聚类算法。此外,本文引入了图论对HCVF框架进行了改进,该方法在捕获数据集的空间结构的同时降低了新指标使用的时间复杂度。改进后的聚类有效性指标(Graph-based clsutering validity index,GBCV)继承了HCVF框架的优点,并且适用于非层次聚类算法、大幅度降低了使用内部指标的时间复杂度。本文分别在12个模拟数据集(具有不同维数、空间分布、重叠度和规模)和6个真实数据集上验证新指标的性能,并与其他七个常用的内部指标进行了对比。实验结果表明:GBCV指标能够准确获取在簇密度、偏态分布、几何结构等方面不同的数据集的最优聚类数目。
其他文献
目的本研究旨在探讨D-二聚体对失代偿期肝硬化患者自发性细菌性腹膜炎(spontaneous bacterial peritonitis,SBP)的诊断价值,为早期诊断SBP提供依据,改善SBP患者的预后并降低其死亡率。方法以2015年1月至2018年9月于天津市第三中心医院肝内科住院治疗,且经腹部B超诊断存在肝硬化并伴有中-大量腹水的失代偿期肝硬化患者为研究对象。收集和分析经排除标准筛选后的研究对
安全生产既是关系到企业生存与发展的大事,也是涉及人民生命安全的大事。安全监管监察对象点多面广、过程连续、动态变化,仅仅依靠传统的人工方式很难实现全员、全过程、全方
微创心脏外科(minimalinvasivecardiacsurgery,MICS)是20世界90年代后期提出的临床新概念,其目的是减轻手术创伤,加快患者恢复,缩短住院时间,减少医疗费用。MICS实际上是微创外科的
中国是世界第一造船大国,廉价劳动力也一直是我国造船行业的核心比较优势。数据显示,船舶制造企业的劳动力成本呈现出每年5%-10%的增长现象,与同期生产效率的提升速度不相匹配,该现象对我国造船企业劳动力成本的优势以及人口红利政策造成了重大的影响。因此,如何在确保企业盈利的条件下,对船舶企业制造全过程中人工成本进行有效控制,是目前亟待解决的问题。本文首先概述了此次研究的背景及意义,接着从目标成本法、作业