论文部分内容阅读
现代数据库和网络技术的发展,使得人们面对的数据量以惊人的速度增长。为了获取有价值的信息,聚类分析已成为数据挖掘中一个十分活跃的研究领域。本文详细介绍了聚类分析的基本概念、数据类型和相异度测量方法,分类方法和特点,并对聚类结果的评价方法进行了讨论。随着数据类型的多样化,聚类分析也要求能够处理各种各样类型的数据。本文重点讨论的是对分类属性数据的聚类算法(Algorithms for Clustering Categorical Data,CCA)研究。围绕分类属性数据的聚类问题,研究较为深入的是划分法聚类。首先具体研究了典型的k-modes算法及其变形,并指出了它们的优缺点,对它的相异度作了一个小的改进,并应用在构建合作学习小组中;探讨了模糊k-modes算法和进化策略对属性进行加权的改进fuzzy k-modes算法,以及近似k-median分类属性数据聚类算法,用基于划分相似度的聚类精确度为聚类结果的评价准则,实验分析了它们的聚类效果。其次研究了引用熵的概念来对分类属性数据(categorical data)的聚类,简单地描述了熵的一些基本性质,介绍了三个基于熵的聚类算法,接着我们用增益熵作为引力模型的距离半径,构建的熵函数作为引力和加速度,聚类中的数目作为质量来形象地描述引力模型的分类属性数据的聚类算法的聚类过程。用分类的效率、期望熵值和纯度这三个聚类评价准则来衡量聚类的结果。为了有所比较,用UCI数据库中的两个分类属性数据集Mushroom dataset和Voting Record dataset,同时运行在k-modes算法和COOLCAT算法上,来比较这三者算法的聚类效果。最后是提出了一种在子空间里无重叠分类属性数据的聚类算法。新的无重叠聚类算法用紧凑函数和分散函数之和作为目标函数,最小化得到它的最终聚类结果。分别用在UCI数据库的3个分类属性数据集中,聚类的结果分别显示了它们的各个类别所在的子空间类集。随着数据库的发展,计算机的更广泛的应用,必然带动分类属性数据上更广泛的研究和应用,在基于熵的概念和高维子空间上的聚类研究也会得到更进一步的完善与发展。