论文部分内容阅读
聚类分析是数据挖掘中的重要研究内容之一,其主要任务是将数据对象根据某种相似准则划分成多个簇,同一个簇中的对象之间具有较高的相似性,而不同簇中的对象具有较大的相异性。k-modes聚类分析作为一类分类数据聚类分析方法,存在着距离度量不够准确,并且初始中心点的选取缺乏稳定性,严重影响聚类分析效果。本文采用属性值权重,对k-modes聚类分析中的距离度量、初始中心点选取及应用进行了深入研究。其主要研究成果如下:(1)给出了一种基于属性值权重的k-modes聚类分析算法。该算法在计算数据对象间的距离时,结合属性值在数据集中的分布特征与属性值自身的差异,重新定义了分类数据相异度度量公式,有效地解决了属性值之间的差异性度量;利用属性值频率和各属性值的权重,给出一种聚类中心更新途径,并给出了一种基于属性值权重的k-modes聚类分析算法;在UCI数据集上,实验验证了该方法能够有效地提高聚类分析的效果。(2)给出了一种基于距离和离群度的k-modes初始聚类中心点选择策略。该策略利用属性值权重,定义了数据对象离群程度度量公式,结合数据对象与已选中心点之间的距离,选取距离相对较远且离群度较低的数据对象为初始中心点。采用UCI数据集,实验验证了该策略的有效性。(3)依据上述的研究内容,采用python语言,设计与实现了基于k-modes的天体光谱数据聚类分析原型系统,并对其相应的功能图和软件系统结构等,给出了较详细描述。运行结果表明该原型系统可为天体光谱的知识发现,提供了一种有效的途径。