混合演化聚类算法研究及其应用

来源 :武汉大学 | 被引量 : 0次 | 上传用户:wing870202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT技术的发展,各行业积累了大量的数据。为了理解这些数据背后的现象发掘其中的规律,一个非常重要的工作就是把这些数据进行分类或聚成组或类(cluster)。传统的聚类算法存在收敛速度慢,对初值敏感的问题。演化算法被广泛认为对复杂性问题非常有效,能够在合理的时间内得到近似最优解。同时,在启发式信息不能应用或启发式信息指导的结果并不让人满意的情况下,演化算法是一个不错的选择。因为相较其它全局优化技术而言,演化算法容易执行、能提供充足供选择的可行解,所以在最近十年,基于群智能的算法已逐步替代了传统的聚类技术。统计学习理论认为可以利用多个分类算法的混合来提高分类的准确率、使得结构风险最小化,同样在聚类问题上也可以利用混合来提高演化聚类的有效性降低风险。为了进一步改善性能和解的质量,近年来混合演化聚类算法被提出,并开始成为研究的热点。由于聚类问题一般没有标签,通常使用有效性指数来评价其解的优劣。同时,在演化聚类中,有效性指数还可以作为适应值函数指导其划分的优化过程,研究有效性指数也具有非常重要的现实意义。此外,在高维数据聚类时,由于存在维数灾难现象以及在属性中可能会有大量不相关的信息会造成干扰而偏离正确的方向,需要进行维数的约简。本文的主要创新与贡献如下:1)分析和总结了演化聚类混合算法的途径与框架,并在此框架的指导下设计了3种新的混合演化聚类方法:混合小生境技术的NichePSO、混合K-means与模糊聚类FCM以及蚁群聚类ACO的KFCMACO、混合模拟退火技术的SADE。试验表明在没有先验知识时,相较单一算法而言这些新方法能够降低聚类的风险。且试验同时表明KFCMACO与SADE算法优于2009年所提出的引用比较广泛的混合演化聚类算法PSOSA。2)提出了混合有效性指数的概念和框架:委员会混合有效性指数以及罚函数混合有效性指数的框架。并主要研究了采用DB、CS与DI指数混合的加权委员会混合指数(WCOMM)与基于外点法的罚函数混合指数(OPnalt),试验表明,在没有先验信息指导选用有效性指数做演化聚类的适应值函数时,它们能够降低聚类的风险。3)研究了演化聚类中的维数约简技术及其混合方法,设计了2个新算法:LDAPSO与MDSACO。试验表明维数约简能够提高高维聚类划分的准确率,且新算法优于2011年提出的演化聚类维数约简算法MDACO。4)应用缺省逻辑推理进行聚类结果的非单调性推广,避免了目前所采用限定推理方法用Occam剃刀损失有效信息的问题。5)进行了应用创新,将其应用到在线声誉等级的评价与需要进行高维数据处理的油藏描述中的油藏沉积微相划分中,得到的结果合理有效。
其他文献
本文围绕着混合曲线曲面造型中的三角混合曲面的设计、混合曲线的几何特征图分析和样条正交性问题进行了深入研究,主要获得以下一些结果:1.在三角混合曲面设计方面.现有的混合
对凝固过程中流场、应力场、温度场及微观组织形态进行数值模拟,能帮助工艺设计人员分析不同时刻凝固过程的温度分布、金属流态、结晶晶粒大小、应力分布等重要物理参数,从而
介绍了TDC与矢量控制驱动系统的硬件组成及控制结构,分析了位置控制的原理和实现方法。仿真及应用结果表明,该系统具有结构简单、响应快速、控制灵活、对应参数变化及扰动不
随着移动定位技术以及空间索引技术的不断发展,基于位置的服务也在越来越广泛的领域内得到了应用,例如在户外运动、旅游、物流运输甚至电子游戏等方面。基于位置服务的快速发
伊拉克战争后的石油形势凸显我国能源安全方面潜伏的危机,主要表现为我国未来能源需求与能源资源储量不足之间的矛盾。同时,我国能源结构中以化石燃料为主所造成的环境问题也
随着半结构化的概率数据的广泛应用,针对半结构化概率数据的理论研究是必要的。XML数据成为一种新的网络应用的数据形式,成为Internet中进行数据交换和表示事实上的标准的形
经济全球化、区域经济一体化是当今世界经济发展的两大趋势,后者是前者的前提。当今世界经济三大板块中,欧洲有发展比较完善的欧盟,北美地区2005年底也正式启动了美洲自由贸
产业集群对创新有巨大的促进作用,知识、技术的外溢有利于集群企业快速、持续的创新活动发生。企业的技术创新对同行业企业会产生的示范和激励作用,企业间的距离越近,雇员之间的