论文部分内容阅读
随着IT技术的发展,各行业积累了大量的数据。为了理解这些数据背后的现象发掘其中的规律,一个非常重要的工作就是把这些数据进行分类或聚成组或类(cluster)。传统的聚类算法存在收敛速度慢,对初值敏感的问题。演化算法被广泛认为对复杂性问题非常有效,能够在合理的时间内得到近似最优解。同时,在启发式信息不能应用或启发式信息指导的结果并不让人满意的情况下,演化算法是一个不错的选择。因为相较其它全局优化技术而言,演化算法容易执行、能提供充足供选择的可行解,所以在最近十年,基于群智能的算法已逐步替代了传统的聚类技术。统计学习理论认为可以利用多个分类算法的混合来提高分类的准确率、使得结构风险最小化,同样在聚类问题上也可以利用混合来提高演化聚类的有效性降低风险。为了进一步改善性能和解的质量,近年来混合演化聚类算法被提出,并开始成为研究的热点。由于聚类问题一般没有标签,通常使用有效性指数来评价其解的优劣。同时,在演化聚类中,有效性指数还可以作为适应值函数指导其划分的优化过程,研究有效性指数也具有非常重要的现实意义。此外,在高维数据聚类时,由于存在维数灾难现象以及在属性中可能会有大量不相关的信息会造成干扰而偏离正确的方向,需要进行维数的约简。本文的主要创新与贡献如下:1)分析和总结了演化聚类混合算法的途径与框架,并在此框架的指导下设计了3种新的混合演化聚类方法:混合小生境技术的NichePSO、混合K-means与模糊聚类FCM以及蚁群聚类ACO的KFCMACO、混合模拟退火技术的SADE。试验表明在没有先验知识时,相较单一算法而言这些新方法能够降低聚类的风险。且试验同时表明KFCMACO与SADE算法优于2009年所提出的引用比较广泛的混合演化聚类算法PSOSA。2)提出了混合有效性指数的概念和框架:委员会混合有效性指数以及罚函数混合有效性指数的框架。并主要研究了采用DB、CS与DI指数混合的加权委员会混合指数(WCOMM)与基于外点法的罚函数混合指数(OPnalt),试验表明,在没有先验信息指导选用有效性指数做演化聚类的适应值函数时,它们能够降低聚类的风险。3)研究了演化聚类中的维数约简技术及其混合方法,设计了2个新算法:LDAPSO与MDSACO。试验表明维数约简能够提高高维聚类划分的准确率,且新算法优于2011年提出的演化聚类维数约简算法MDACO。4)应用缺省逻辑推理进行聚类结果的非单调性推广,避免了目前所采用限定推理方法用Occam剃刀损失有效信息的问题。5)进行了应用创新,将其应用到在线声誉等级的评价与需要进行高维数据处理的油藏描述中的油藏沉积微相划分中,得到的结果合理有效。