K-means聚类算法的研究

被引量 : 0次 | 上传用户:renx2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘领域中重要的技术之一,用于发现数据中未知的分类。聚类分析已经有了很长的研究历史,其重要性已经越来越受到人们的肯定。聚类算法是机器学习、数据挖掘和模式识别等研究方向的重要研究内容之一,在识别数据对象的内在关系方面,具有极其重要的作用。聚类主要应用于模式识别中的语音识别、字符识别等,机器学习中的聚类算法应用于图像分割,图像处理中,主要用于数据压缩、信息检索。聚类的另一个主要应用是数据挖掘、时空数据库应用、序列和异常数据分析等。此外,聚类还应用于统计科学,同时,在生物学、地质学、地理学以及市场营销等方面也有着重要的作用。本文是对聚类算法K-means的研究。首先介绍了聚类技术的相关概念。其次重点对K-means算法进行了分析研究,K-means算法是一种基于划分的方法,该算法的优点是简单易行,时间复杂度为O(n),并且适用于处理大规模数据。但是该算法存在以下缺点:需要给定初始的聚类个数K以及K个聚类中心,算法对初始聚类中心点的选择很敏感,容易陷入局部最优,并且一般只能发现球状簇。本文针对聚类个数K的确定、初始K个聚类中心的选定作了改进,给出了改进的算法MMDBK(Max-Min and Davies-Bouldin Index based K-means,简称MMDBK)。算法的出发点是确保发现聚类中心的同时使同一类内的相似度大,而不同类之间的相似度小。算法采用Davies-Bouldin Index聚类指标确定最佳聚类个数,改进的最大最小距离法选取新的聚类中心,以及聚类中心的近邻查找法来保证各个类之间的较小的相似度。文中最后使用KDD99数据集作为实验数据,对K-means算法以及MMDBK算法进行了仿真实验。结果显示改进后的MMDBK算法在入侵检测中是有效的。
其他文献
<正>溯源龟龄集因循道家养生关于龟龄集从深宫大内产生到流入民间,古籍《山西通志》中记载了一段颇具传奇色彩的历史故事。龟龄集源于明朝嘉靖年间,嘉靖皇帝在五十岁寿辰时,
期刊
本文阐述了全面预算管理的概念和意义,分析了我国企业实施全面预算管理的现状,从而对我国企业完善和实施全面预算管理进行了一定的探讨,提出应如何实施全面预算管理,从而提升
本文就谨慎性原则在会计应用中的现状及起到的作用进行了详细的论述,并提出了自己的见解。
<正> “今儿何夕兮?搴洲中流,今日何日兮?得与王子同舟……” 十岁那年,我第一次渎到这首《越人歌》,是在一个叫做“光禄坊”的十字街头,父亲因为“抄家”的劫难,命我和姐姐
在能源危机的大环境下,节能建筑成为建筑发展的必然趋势。进入21世纪,高效、充分的利用太阳能已经成为建筑节能的主要研究方向和发展方向。鉴于我国的经济状况,在太阳能建筑
睡眠养生对于生命的保养是极其重要的,睡眠养生最重要的是睡眠的质量,而要提高睡眠质量,就必须掌握科学的睡眠养生保健方法.本文从天时、地利、人和三方面论述了睡眠养生的重
<正>广誉远国药是国家认定首批"中华老字号"企业,其主导产品龟龄集,是国家级中药保密处方,"中国非物质文化遗产",为明清两代十八位帝王御用的皇室至宝,是中医药宝库的养生国
框架协议采购是一种先进的采购管理模式,它具有战略性强、科学严谨、时效性强、可控性好、透明度高的特点。框架协议采购从上世纪八十年代逐渐形成和兴起,现已成为许多国家政
针对脉冲神经网络(SNNs)在视觉颜色特征分类领域精度不高的问题,提出了一种基于新型RGB-HSV预处理模型的高精度脉冲神经网络。该脉冲神经网络融合了RGB颜色通道简单和HSV色彩
省区市级干部教育培训机构$$ 机构概况:$$ 我国省区市级干部教育培训机构主要由党校、行政学院、社会主义学院构成。绝大部分省区市都设立了党校和社会主义学院,但单独设
会议