数据挖掘中基于遗传算法的聚类方法应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yuan6391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。在数据挖掘中,聚类分析也是一种很长用的技术。而聚类技术中K-means聚类分析技术又是最常用的方法。但K-means算法在实际应用中需要用户给出要聚类的数目即k的值,另外,K-means算法在运行时要首先随机产生一个初始聚类中心,然后再对使用这个初始聚类中心得到的聚类结果进行不断调整,而这个聚类结果在很大程度上受初始聚类中心选取的影响。为了消除K-means聚类算法对于用户输入k值的依赖,也为了减小K-means聚类算法受初始聚类中心的影响,本文引入了遗传算法。本文的主要工作包括:①介绍分析了聚类算法以及遗传算法。介绍了数据挖掘的相关概念、任务、方法,然后介绍了聚类分析的概念、常见算法以及遗传算法的基本概念、研究现状等,并进行了相应的分析。②结合遗传算法和K-均值算法的优点,提出一种基于遗传算法的k-means聚类算法,并在该算法的基础上提出了改进的遗传聚类算法,该算法根据聚类实际情况采用可变长实数表示聚类中心,并设计新的交叉变异算子以及采用广泛使用的聚类有效性指标DB-Index作为目标函数,不仅较好地解决了K-均值聚类算法中聚类数目难以确定、对初始值敏感及易陷入局部最优等缺陷,而且算法效率及算法的精度较之以往算法有较大提高。
其他文献
随着空间信息应用需求的不断增长,人们对地观测数据需要更高的分辨率、更快的获取速度和更大的信息量,随之对空间信息的服务和共享提出了更高的要求。G/S模式是继目前网络软
随着IT技术的发展,近几年云计算技术逐渐成熟。由于数据中心的数量和规模急速增长,如何合理地利用资源同时有效节省数据中心能耗成为热门的课题。作为云计算底层的IaaS层,是
特征造型技术作为新一代CAD/CAM集成系统的关键技术之一,是产品设计的核心。建立一个基于特征的、统一而完备的产品信息模型是必要的,它可以实现模型的可编辑性和易维护性。
随着Internet的迅速发展、网络应用日益普及以及云计算技术的快速成熟,在全世界,pc、手机、pad上的各种app极大方便了人们的生活和旅游。各种O2O,各种app极大丰富了我们物质
随着网络信息资源的飞速增长,互联网已经成为一个巨大的信息服务中心,它涉及新闻、政府、电子商务等和许多其他信息服务。此外,还包含了丰富和动态的超链接信息,这些都为Web
随着P2P技术的迅猛发展和广泛应用,人们在受益于P2P技术所带来的巨大利益的同时,也不得不面对网络安全的严峻挑战。因此,当前急需解决的问题是实现对P2P流量的检测与控制。常
云计算是最近几年的一个热门科技词汇,基于云计算结构开发的服务也是各种各样,其中云网盘服务是大家接触比较广泛的一种服务。云网盘通过云计算体系可以方便的进行容量扩展,
随着电子技术的不断发展,各种新的电子产品不断涌现。驱动程序的设计也随着外设的丰富而变得更加复杂,因此驱动代码中存在缺陷的概率也将越来越大。这一趋势为操作系统中设备
直升机巡检输电线路具有高效、快捷、可靠、不受地域影响等优点。巡检中所获取的绝缘子图像为智能化故障诊断提供了数据来源。绝缘子作为输电线路中重要部件时常发生损坏,严
私有云是当前云计算领域的一个热门发展方向,越来越多的企业和单位选择在内部搭建私有云环境,让用户能够通过云平台的方式工作。云存储是私有云中最重要的一部分,而如何保证