遗传算法在数据挖掘聚类分析中的应用研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:jin1067061730
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现(KDD)过程中的关键步骤,是数据库研究开发和应用最活跃的分支之一数据挖掘是多门学科和多种技术相结合的产物,也是一个非常年轻而又活跃的研究领域。数据挖掘的目的是把人工智能、机器学习、神经网络、统计学、模式识别与数据库等技术结合起来,由计算机自动从已有数据(数据库或数据仓库)中发现未知的、具有潜在应用价值的信息或模式,解决数据量很大、而知识贫乏的矛盾。面对海量的资料,首要的任务是将它合理的归类。否则,在许多情况下,问题不是没有模式被发现,而是模式太多了。而聚类就是将数据合理归类的一种方法,它把分类对象按一定的规则分组或类,这些组或类不是事先给定的,而是根据数据特征而定的。在一个给定的类里,这些对象在某种意义上是倾向于彼此相似,而在不同的类里的对象差别较大。通过聚类,人们能够识别密集的和稀疏的区域,发现全局的分布模式和数据属性之间有趣的相互关系。在数据挖掘中,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理。启发式聚类算法是目前应用较为广泛的一类聚类挖掘算法。但是目前较为流行的启发式聚类算法在搜索效率上都不高。本文基于仿真实验从聚类效率方面深入研究当前的几种聚类挖掘算法,并给出了一种改善聚类效率的方案。本文研究主要内容如下:1.从聚类效率方面研究了几种不同的聚类挖掘算法:K-MEANS、PAM、CLARA,对这三种启发式聚类算法的效率进行分析和仿真实验,同时对聚类效果也进行了比较和分析。2.对CLARANS算法进行了深入的研究分析,从理论上分析了CLARANS算法的缺陷,利用仿真来进行求证。3.在充分继承CLARANS原有的优点基础上,利用遗传算法对CLARANS算法进行改进,以求提高聚类效率,同时为了避免遗传算法的早熟问题,增加种群多样性,引入基于小生境技术的遗传算法来做进一步改进,提出NGA-CLARANS算法,该算法有更好的全局收敛性。
其他文献
无线传感网络(Wireless Sensor Network,WSN)中节点的定位技术是无线传感网络技术的核心技术之一,在很多应用中,位置信息的准确性是节点数据信息实用性的前提。在网络节点成
目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限
以TCP/IP协议为基础的Internet自从九十年代以来,其网络规模、用户数量以及业务量都呈现爆炸式地增长,新型网络应用也不断涌现,网络参数动态变化。这些使得网络拥塞的状况愈
细分技术是计算机图形学研究的热点方向,其研究成果在多个领域得到应用。体细分作为细分技术的一个分支,主要应用于自由变形。在自由变形时,如果控制网格(体网格)过于稀疏,变
关联规则挖掘是数据挖掘中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一。关联规则挖掘分为两步:频繁项集挖掘和利用这些频繁项集产
随着嵌入式系统的深入发展,对开发工具提出了更高的要求。在传统软硬件协同开发模式中,软件和硬件开发相互牵制,硬件干扰引起的异常行为严重影响软件的调试和测试,延误开发进
在Internet的飞速发展和普及下,丰富的Web资源构成了一个巨大的全球性信息仓库,网络已经成为人们获取信息的一个重要手段。面对庞大的Web信息,用户如何从繁杂的数据中快速、
随着Web2.0和网络技术的发展,网络用户不仅是Web信息的消费者,也是Web信息的生产者,这就导致了网络上的信息量呈爆炸性增长。如何有效利用Web信息资源成为需要面对和解决的重
随着数字化技术与多媒体技术的普及,便携式及移动性较强的产品得到了空前的发展,其中,产品的电池使用时间极大地影响了消费者的购物倾向。面对电池发展受限的现状,功耗问题已经成
本文通过分析中山市劳动保障部门业务系统之间的“信息孤岛”问题,充分了解课题背景后,提出基于Web Service的面向服务架构(Service-Oirented Architecture)模型的组件调用平