论文部分内容阅读
数据挖掘是从海量的数据中发现有用的信息或知识,它已在许多领域得到广泛运用。聚类分析是数据挖掘领域最重要的技术手段之一,聚类分析算法有很多,其中以K-均值算法最为经典。K-均值算法的优点是思想简单,算法简洁,收敛性好,对大规模数据进行聚类时效率较高。但该算法也有很多不足,如对初始中心敏感,K值需要预先给定等。本文主要深入研究与分析K-均值算法,总结其优点与不足,针对K-均值聚类算法对初始点依赖提出两种新的改进算法并将第二种算法应用在基因表达数据中。本文主要研究内容及成果如下:(1)提出了一种基于初始点选择的DNC值K-均值聚类算法。该算法有效剔除了孤立点并改善了 K-均值聚类算法初始中心随机选择而导致的聚类结果不稳定。本文通过大量对比实验,证明该改进算法的有效性。(2)提出一种基于初始点选择的改进加权欧氏距离K-均值聚类算法。该算法对初始聚类中心的选择进行了改进,使得选出的中心点能在一定程度上代表不同簇,克服了 K-均值算法中随机选择的初始点可能过于邻近的不好情况。另外根据不同特征对聚类贡献大小不同,采用加权欧氏距离将数据对象分配到相应的聚类中心,提高聚类效率。通过UCI数据集进行试验及对比,分析并证明改进算法的有效性。最后本文将该算法应用在两种基因表达数据中,取得一定效果。