基于聚类中心选取策略的混合属性聚类技术研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zzz999z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的爆炸式增长为数据挖掘技术的应用带来了契机,聚类分析是数据挖掘领域中极为活跃的研究方向之一,旨在分析数据的分布、研究数据的特征,发现数据潜在的内部结构。它在数据探索和机器学习中扮演着重要角色,并广泛应用于推荐系统、客户分割、商业智能、生物信息等领域。本文在研究现有的聚类分析算法基础上,结合聚类中心选取技术,针对高维空间中混合属性数据聚类算法存在精度较低、参数敏感且过多、聚类中心选取偏差等问题展开研究,论文的主要创新工作如下:(1)依据核心对象与非核心对象的分布差异,提出了一种基于过滤模型的聚类算法CA-FM。算法采用提出的过滤模型FM去除干扰聚类过程的非核心对象;并根据核心对象间的近邻关系构建邻接矩阵,通过遍历矩阵统计连通子图数量,即为聚类原型个数;然后将对象按密度因子进行降序排序,选出聚类原型;最后将剩余对象依据划分原则分配到相应的簇中,形成最终聚类。在合成数据集、UCI机器学习数据集以及人脸识别数据集上的实验结果验证了算法的有效性,与同类算法相比,CA-FM算法具有较高的聚类精度。(2)依据聚类中心的空间分布特征,提出了一种基于中心选取模型的聚类算法CSC。算法以提出的无参数局部核密度度量方法和边界度度量方法为依据,建立了聚类中心选取模型CSM,从而自动确定聚类中心;并按照密度峰值聚类算法的划分原则,将剩余对象划分到相应的簇中,形成最终聚类。在合成数据集和真实数据集上的实验结果验证了聚类中心选取模型的鲁棒性和聚类算法的有效性。与同类算法相比,CSC算法具有较高的聚类精度和参数鲁棒性。(3)针对混合属性数据聚类任务,提出了一种基于残差分析的混合属性数据聚类算法RA-Clust。算法在基于熵权重的混合属性相似性度量基础上,提出了基于KNN和Parzen窗技术的局部密度计算方法;并通过线性回归和残差分析技术对聚类中心进行预选取,然后依据提出的聚类中心目标优化模型对预选取阶段得到的对象进行迭代优化,得到期望的聚类中心;最后将剩余对象按距高密度对象最小距离原则进行划分,完成聚类任务。在数值属性、分类属性以及混合属性数据集上的实验结果验证了RA-Clust算法的有效性。与同类算法相比,RA-Clust算法参数较少且具有较高的聚类精度。本文的研究工作展示了聚类分析技术从低维、数值属性向高维、混合属性处理领域的演变,同时为聚类中心选取过程提出了一种思路、机制、模型。在医疗诊断、金融信贷、生物信息、人脸识别等领域的实验与分析,进一步加速了混合属性数据聚类算法由理论研究向实际应用的迁移。
其他文献
目的:体操在各项体育运动的发展中起着基础性作用,体操项目作为我国竞技体育的优势项目,需要不断的推广和发展。但是由于人们常年来对体操项目的认识误解使得我国竞技体操后
本文以宋元山水画题跋作为研究对象,主要围绕着绘画题跋本身的写作特点、宋元山水画与题跋的图文关系、宋元文人写作和自我身份认知等关系展开,主要分为四个章节:第一章对宋元山水画发展情况进行简要介绍,并梳理山水画题跋写作的历史背景,展示山水画题跋的写作场景和缘由。第二章以山水画题跋的文本作为重点,分别从与画作相关、与画家相关、以及与题跋者相关者三个方面对题跋的内容进行分类。第三章是对山水画题跋的写作形式进
通过扩大铝标准曲线范围,采用紫外可见分光光度法测定更宽浓度范围的铝含量,对方法的线性关系、准确度、精密度、耐用性进行了全面考察。结果表明,铝质量范围在0~160μg具有
等效温度法可作为对预焙阳极焙烧炉焙烧效果进行科学量化评价的主要方法之一,并以此为依据进行焙烧工艺优化。本文运用等效温度法对预焙阳极焙烧炉焙烧效果进行了测试与分析,