论文部分内容阅读
数据的爆炸式增长为数据挖掘技术的应用带来了契机,聚类分析是数据挖掘领域中极为活跃的研究方向之一,旨在分析数据的分布、研究数据的特征,发现数据潜在的内部结构。它在数据探索和机器学习中扮演着重要角色,并广泛应用于推荐系统、客户分割、商业智能、生物信息等领域。本文在研究现有的聚类分析算法基础上,结合聚类中心选取技术,针对高维空间中混合属性数据聚类算法存在精度较低、参数敏感且过多、聚类中心选取偏差等问题展开研究,论文的主要创新工作如下:(1)依据核心对象与非核心对象的分布差异,提出了一种基于过滤模型的聚类算法CA-FM。算法采用提出的过滤模型FM去除干扰聚类过程的非核心对象;并根据核心对象间的近邻关系构建邻接矩阵,通过遍历矩阵统计连通子图数量,即为聚类原型个数;然后将对象按密度因子进行降序排序,选出聚类原型;最后将剩余对象依据划分原则分配到相应的簇中,形成最终聚类。在合成数据集、UCI机器学习数据集以及人脸识别数据集上的实验结果验证了算法的有效性,与同类算法相比,CA-FM算法具有较高的聚类精度。(2)依据聚类中心的空间分布特征,提出了一种基于中心选取模型的聚类算法CSC。算法以提出的无参数局部核密度度量方法和边界度度量方法为依据,建立了聚类中心选取模型CSM,从而自动确定聚类中心;并按照密度峰值聚类算法的划分原则,将剩余对象划分到相应的簇中,形成最终聚类。在合成数据集和真实数据集上的实验结果验证了聚类中心选取模型的鲁棒性和聚类算法的有效性。与同类算法相比,CSC算法具有较高的聚类精度和参数鲁棒性。(3)针对混合属性数据聚类任务,提出了一种基于残差分析的混合属性数据聚类算法RA-Clust。算法在基于熵权重的混合属性相似性度量基础上,提出了基于KNN和Parzen窗技术的局部密度计算方法;并通过线性回归和残差分析技术对聚类中心进行预选取,然后依据提出的聚类中心目标优化模型对预选取阶段得到的对象进行迭代优化,得到期望的聚类中心;最后将剩余对象按距高密度对象最小距离原则进行划分,完成聚类任务。在数值属性、分类属性以及混合属性数据集上的实验结果验证了RA-Clust算法的有效性。与同类算法相比,RA-Clust算法参数较少且具有较高的聚类精度。本文的研究工作展示了聚类分析技术从低维、数值属性向高维、混合属性处理领域的演变,同时为聚类中心选取过程提出了一种思路、机制、模型。在医疗诊断、金融信贷、生物信息、人脸识别等领域的实验与分析,进一步加速了混合属性数据聚类算法由理论研究向实际应用的迁移。