论文部分内容阅读
全球信息科技和互联网络的迅速发展,使得人们对各种网络资源共享的需求越来越大,这些共享的数据信息造成了数据膨胀和信息爆炸。如何找到一种科学合理的方式来帮助人们从大量纷杂无章的数据中筛选出有效可靠的信息是急需研究的问题。数据挖掘是解决该问题的一种有效方法,它可以帮助人们在对特定的数据进行专业的处理之后做出正确高效的决策。聚类本身属于数据挖掘里面的关键内容,故成为许多专家学者的研究对象。在经典的聚类方法基础上,本文分析了聚类算法的局限性,然后研究了蜂群算法、粒子群算法、粗糙集以及粒计算的理论知识,之后结合人工蜂群、粒子群、粗糙集和粒计算来对传统聚类算法进行优化。主要工作如下:(1)经典的K-medoids聚类算法具有起始类中心随机获取、准确率不够高、全局寻优时表现不佳的缺陷,为此,提出了一种基于人工蜂群的优化聚类算法。该算法结合改进粒计算和最大距离积法选取初始聚类中心,然后动态调整搜索步长,采用基于排序的选择概率来实现跟随蜂对引领蜂的选取,增加了算法完成最终寻优的速度,降低了早熟收敛情况发生的概率。实验结果表明:该算法降低了对起始中心分布的敏感程度,且准确率和稳定性都得到较大提升。(2)K-means聚类方法具有对起始类中心依靠性大、无法处理边界对象、精度不够高和稳定性差等缺陷,本文将粒子群与粗糙集进行融合后再用于聚类问题中。该算法初始化采用密度和最大距离积法,并使惯性权重的取值用线性递减和随机分布的方法来实现,然后调整学习因子、引入随机粒子,增加种群的多样性。最后将改进后的算法与粒子群和粗糙集结合,并用之来优化K-means。实验结果表明:该算法在一定程度上弱化了对原始聚类中心的依赖,能有效地整理边界数据,准确率和稳定性也得到了改善。