基于初始点选择的K均值聚类改进算法及应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：ZJUCS

【摘要】

：

数据挖掘是从海量的数据中发现有用的信息或知识,它已在许多领域得到广泛运用。聚类分析是数据挖掘领域最重要的技术手段之一,聚类分析算法有很多,其中以K-均值算法最为经典

【作者】

：

周娟

【出处】

：

湖南大学

【发表日期】

：

2004年期

【关键词】

：

数据挖掘聚类 K-均值聚类算法 DNC值加权处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是从海量的数据中发现有用的信息或知识,它已在许多领域得到广泛运用。聚类分析是数据挖掘领域最重要的技术手段之一,聚类分析算法有很多,其中以K-均值算法最为经典。K-均值算法的优点是思想简单,算法简洁,收敛性好,对大规模数据进行聚类时效率较高。但该算法也有很多不足,如对初始中心敏感,K值需要预先给定等。本文主要深入研究与分析K-均值算法,总结其优点与不足,针对K-均值聚类算法对初始点依赖提出两种新的改进算法并将第二种算法应用在基因表达数据中。本文主要研究内容及成果如下:(1)提出了一种基于初始点选择的DNC值K-均值聚类算法。该算法有效剔除了孤立点并改善了 K-均值聚类算法初始中心随机选择而导致的聚类结果不稳定。本文通过大量对比实验,证明该改进算法的有效性。(2)提出一种基于初始点选择的改进加权欧氏距离K-均值聚类算法。该算法对初始聚类中心的选择进行了改进,使得选出的中心点能在一定程度上代表不同簇,克服了 K-均值算法中随机选择的初始点可能过于邻近的不好情况。另外根据不同特征对聚类贡献大小不同,采用加权欧氏距离将数据对象分配到相应的聚类中心,提高聚类效率。通过UCI数据集进行试验及对比,分析并证明改进算法的有效性。最后本文将该算法应用在两种基因表达数据中,取得一定效果。

其他文献

试论东欧国家转型中的制宪运动

制定一部新的宪法在东欧转型国家被认为是“制度转变的基石”。东欧国家在转型初期完成制宪的目标大体以三种方式实现：制定一部全新的宪法、恢复使用历史上的某部宪法或制定过

期刊

东欧转型制宪全民公决

从教育心理学角度谈外语学习策略

探讨了以学习者为中心外语学习策略的理论基础--社会建构主义,介绍了社会建构主义所包含的四种影响学习过程的因素.在此理论指导下的外语学习策略的研究是研究学习者如何进行

期刊

学习策略社会建构主义自主性

无刷直流电动机的数学模型建立及参数辨识

详细介绍了无刷直流电动机数学模型的建立过程，说明了该电机的参数辨识方法。为系统的设计和调试提供了重要的参考价值．

期刊

永磁无刷直流电机数学模型参数辨识brushless DC motor mathematical model parameter identificatio

胡椒碱激活TRPV1的分子机制研究

胡椒碱是黑胡椒中主要的刺激性成分,胡椒的食用价值及药用价值都源于胡椒碱的这种辛辣感。研究发现胡椒碱具有广泛药理作用,如可以抗癫痫,抗炎、抗氧化,保护胃肠道,提高药物的生物利用度以及减肥等。前期研究发现胡椒碱与辣椒素作用于同一受体,即辣椒素受体—TRPV1(Transient Receptor Potential Vanilloid1)。TRPV1是TRP超家族中的重要成员之一,是一种非选择性的离子

学位

TRPV1胡椒碱辣椒素分子对接

对法雅《火祭舞》手风琴改编曲的演奏风格初探

《火祭舞》(The Ritual Fire Dance)是曼努尔﹒德﹒法雅(Manuel de Falla)1915年为所作独幕舞剧《魔法师之恋》中第八段“火祭舞”的配乐,也是舞剧中最有名的一段音乐。作为西班

学位

手风琴火祭舞法雅西班牙音乐

护理对胃癌患者营养状态及化疗依从性的影响

目的分析护理干预对胃癌患者营养状态及化疗依从性的影响。方法选取我院2013年12月至2014年12月收治的胃癌中晚期患者28例,随机分为实验组和对照组,每组14例。对照组患者给予

期刊

整体护理胃癌营养状态化疗依从性

基于初始点选择的K均值聚类改进算法及应用研究

其他学术论文