基于群智能的蚁群聚类算法研究

被引量 : 0次 | 上传用户:yueaimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术日新月异的发展,各行各业积累的数据量逐渐增多,如何从海量的数据中挖掘出有用的信息成为越来越多研究人员关注的问题。目前数据挖掘技术已经被许多公司视为良好的发展商机。数据挖掘就是从海量的数据中提取出隐含的、未知的、有潜在价值的知识和规则。数据挖掘经典的算法主要有聚类分析,贝叶斯分类、关联规则、支持向量机、遗传等算法,其中聚类分析是数据挖掘中一项重要的工作,主要作用是将数据中同一类的数据聚集到一起,而不同类之间是彼此分开的。在聚类分析中最流行的是k-means和k-medoids算法,虽然这两种聚类分析算法的思想很简单,应用也很广泛,但是仍然存在一些不足,例如初始化分组很大程度上决定了聚类结果,而且要指定k的值,此外聚类结果对输入数据的顺序也很敏感,当数据量很大时,迭代次数会增加,效率会降低等等。所以我们希望使聚类分析更“智能”,使聚类算法可以对输入数据顺序不敏感或者不需要输入先验知识k的值,就可以形成聚类。近些年,随着群智能算法的产生,越来越多的研究者将群智能算法应用到聚类上,并取得了良好的实验结果。群智能算法主要有粒子群算法和蚁群算法,都是通过模拟自然界中鸟群和蚁群得到的算法模型。由于群智能算法是模拟自然界的社会性动物产生的,因此群智能算法在应用到聚类上时有着自身的优点,对于输入数据顺序不敏感,不需要输入聚类的个数等。但同样存在着一些不足,例如蚁群算法中需要设置很多参数,蚁群聚类算法中,人工蚂蚁在拾起或放下数据对象之前要做大量试探性随机运动,所花费的时间很长,使得算法的效率较低,而且,对输入参数的敏感性很强。本文就是针对蚁群聚类算法中存在的不足进行的算法改进,主要改进工作如下:首先算法对相似度度量方法进行了改进,在对待每个数据的不同属性是不等价的,也就是说每个属性对于数据隶属于哪个类的贡献是不同的,改进的度量方法加大了具有区分度属性之间的距离,这样得到的相似度会比传统的相似度度量更有意义。其次,还提出了一种新的拾起放下策略,在算法进行迭代多次以后,对已经形成微簇的数据群进行拾起,大大的提高了算法的效率;除此之外还在如果在放下负载对象失败的情况下,加入了拾起与负载相似的数据对象的策略,从而去除了与周围对象不合群的数据对象。最后,对蚂蚁的记忆和对噪声数据增加了处理,本文采用的记忆策略是先规定一个相似度的阀值,只有数据对象之间的相似度超过这个阀值的时候才移动过去,否则就随机移动找到一个空位置。如果当蚂蚁负载这个数据对象放下失败的次数超过给定的阀值时,蚂蚁就会将它放在一个空网格上。经过在数据集Iris上的实验验证,本文提出的改进的蚁群聚类算法——基于群智能的蚁群聚类算法在效率和正确率上都优于传统的蚁群聚类算法。
其他文献
随着城市化进程的快速发展,兴建智能建筑和高层建筑是国家综合国力的需要。高层建筑内的垂直交通工具——群控电梯的研究则显得极为迫切。本文以群控电梯系统为研究载体,以提
【正】 真理有没有阶级性?我认为,真理是属于认识论的范畴,从真理本身具有的属性来看,无论在现今的资本主义社会和社会主义社会,还是到将来无阶级的共产主义社会,真理是没有
本研究是吉林省科技发展计划项目(20100243)——“功能性禽蛋产品产业化生产示范”的一部分。本研究以长白山特产鸡蛋为实验原料,对长白山特产鸡蛋的营养素进行了综合分析,并对其
指出了蚱蝉(Cryptotympana atrata)在我国分布极为广泛、危害严重,是重要的农林业害虫,也是重要的食用昆虫资源,具有较高的营养价值和药用价值。根据国内外蚱蝉相关研究,对蚱
社区银行是地方性小型法人金融机构,不同于媒体上报道的大中型商业银行在社区设立的服务网点。发展社区银行是优化现有银行组织结构,增加对中小客户等弱小群体金融服务的供给
四旋翼无人直升机是一种具有垂直起降与空中悬停等特殊飞行能力的多旋翼无人飞行器,其结构简单优美,通过改变四个旋翼的转速,可产生各种飞行姿态。它在空中可以从悬停状态瞬间改
目的本研究主要是探讨内镜下乳头括约肌小切开联合气囊扩张术对比乳头括约肌大切开治疗胆总管结石的疗效分析。旨在探讨其有效性、安全性。方法选取滕州市中心人民医院2009-2
进入二十一世纪以来,日趋激烈的国际化竞争以及技术的快速发展与普及,使各企业同类产品之间的差异性逐渐减小,而产品所蕴含的精神理念即品牌理念却是无法被模拟和复制的。企
3D历史地图是运用现代科技,将历史事件所发生的地形、地貌及其他如植被、天气等因素以立体直观的形式表现出来的立体地图。它突破传统历史地图的局限,不仅在内容上超越了传统