论文部分内容阅读
随着信息时代的来临,各行各业的繁荣与发展都离不开知识发现。知识库中数据规模的不断扩大,从海量的数据中萃取出其中隐藏或潜在的知识和规则是对未来的决策十分重要的。本文主要研究聚类算法。聚类算法是一种无监督的学习算法,目的就是把所给的数据元素划分到相似的数据分组之中,这个数据分组就叫做簇。本文主要研究粗糙集与聚类算法之间结合而产生的粗糙聚类算法。采用Z.Pawlak教授(1982)提出的关于粗糙集的3条基本性质,对一种划分的聚类算法——PAM算法进行改进得到粗糙的PAM聚类算法。对比P.Lingras教授(2002)提出的粗糙K-means算法而言减少了两个初始参数。并且进行试验得到了较好的实验结果。本文对Huang(1997)提出的对混合性数据进行聚类的K-means算法进行改进,得到一种新的处理混合型数据的K-means聚类算法。并且通过UCI数据进行试验,得到较好的实验结果。最后本文为了试验需要设计了一种基于B/S构架的聚类算法系统。集成了K-means,PAM,粗糙K-means和粗糙PAM聚类算法。并用java语言进行编程,采用Windows中的IE作为用户界面对系统进行操作。使用MySQL作为后台数据库。