K-means算法的改进研究

被引量 : 19次 | 上传用户:a2854831
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当代,随着计算机网络与数据库技术的发展,信息量变的越来越大,如何在海量的数据中找到有用的信息成为了一个非常重要的课题,数据挖掘技术在这种背景下应运而生。数据挖掘就是从大量的数据资料中发现有用的信息或知识,为科学决策提供依据。聚类分析技术是数据挖掘的一个重要的分析手段,是一种无监督的分类方法。聚类分析是在没有先验知识的情况下,将一个数据集划分成几个簇,使得相同簇中的数据特征尽可能相同,不同簇间的数据特征尽可能相异。目前聚类的算法很多,其中K-means算法因为思想简单,算法简洁,收敛性好成为应用最广最受欢迎的方法之一。然而K-means算法也有很多不足,如聚类结果对初始中心敏感,k值无法确定等。针对以上缺点,本文提出了一种改进的K-means算法和一种K值学习算法。改进的K-means算法是为了解决传统K-means算法的聚类结果对初始聚类中心敏感这一问题,同时提高算法的性能。改进算法主要是针对聚类数已知的聚类问题,只需用户输入k值就能执行。算法通过计算数据集中的各个数据点到原点的距离,然后按照距离大小排序,将数据集平均分成k组,之后将每组的中间的数据点选为初始中心。在将数据分配到各簇的操作中,通过优化处理大大减少了算法的时间复杂度。K值学习算法是为了解决传统K-means算法不能确定k值的缺点。在该算法中,引入了遗传算法。遗传算法是一种通过模拟自然界生物进化过程的随机化搜索方法,根据适应度函数,通过自然选择,交叉重组以及变异等遗传操作不断迭代更新种群以搜索到最优解。在本文的K值学习算法中,使用二进制编码,让每个个体代表一个k值,根据适应度函数,不断通过遗传操作进行迭代找到最佳聚类数。本算法采用了自适应的交叉概率和变异概率以加快算法的收敛性。最后通过两组实验分别测试改进K-means算法和K值学习算法的有效性。在第一组实验中,对五组数据分别执行传统K-means算法和改进K-means算法,从聚类结果和所耗时间上对两种算法进行比较;在第二组实验中对五组数据分别执行K值学习算法。实验表明改进K-means算法能够以更少的时间得到更好的聚类结果,通过K值学习算法寻找最佳聚类数非常可行。
其他文献
为维护监理企业信誉,保证监理服务质量,增强监理企业竞争力,推动我国的建设监理事业继续健康发展,监理企业必须重视对监理项目风险的管理,通过识别。本文对建设工程监理的风
基于功能对等理论中"功能对等优先于形式对应"的翻译观,对《伤寒论》两种英译本中病证名翻译进行对比分析,并从借用西医术语,实现功能对等;调整或增补语义,力求接近对等;采用
目的:结合传统中医药理论和现代新型制药工艺制备决明方有效成分传递体纳米乳剂并建立其有关药学质量评价标准外用观察其对肥胖大鼠体重和脂肪组织脂肪甘油三酯脂肪酶(adipose
能源紧缺与环境恶化是二十一世纪日益严重的全球性问题。随着人类文明不断的向前发展,全球工业化对能源的需求也不断增长。作为传统能源的煤、石油和天然气等一次能源将最终走
族群关系是当前学术界研究的一个重要领域。新疆的族群关系因其特殊性和复杂性,历来是学者们关注的焦点。然而位于新疆境内的兵团,作为一个自成系统、自成区域的组织,其系统
青田县是我国著名的侨乡。欧洲是青田县人传统的移居地。改革开放后,青田新移民逐渐成为中国大陆新移民中令人瞩目的一支。欧洲青田新移民数量随之增多,主要集中于欧盟地区,新移
现在3D显示技术已经慢慢的成为了显示技术的主流,而随着立体播放技术的发展与成熟,基于立体视频播放过程中的增强现实技术也迫切需要革新。增强现实也被称为混合现实,是指借助计
随着我国经济的发展,各行业有了很大转型和发展,特别是物联网技术给工业企业带来了很大发展优势,并且在很大程度上节约了成本和提高自动化在市场中的竞争力,呈现出了很好的未
随着我国节能减排“十二五”规划的提出,城市规模的不断扩大,集中供热需求更加灵活多变,如何充分利用供热资源,提高供热效率成为日益突出的社会问题。因此,需要了解供热管网的实时
轻型直流输电是近年来电力电子技术重要的研究和应用领域之一,基于模块化多电平的MMC级联拓扑结构所具有的特点非常适宜于轻型直流输电系统,并受到广泛关注。通过对MMC原理分析