论文部分内容阅读
由于计算机科学与技术的发展,特别是计算机网络的发展,人们面对着越来越多的海量的信息。尤其是数据库的大量应用,在各个行业各个领域都积累了十分丰富的数据,“丰富的数据与贫乏的知识”的问题也日渐突出。近几十年间,知识发现(规则提取、数据挖掘、机器学习等)应运而生,受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。与此同时,聚类作为数据挖掘的主要方法之一,也越来越引起人们的关注。在知识发现的任务中,人们常常要面临大量数据的处理任务,特别是随着网络信息的不断增长和各个复杂领域例如金融数据,医疗诊断,卫星探测等数据的增长,现在面临的处理对象经常上百万、千万,计算机的处理能力往往显得不足。并且大量的数据会给知识发现的知识获取方法带来很多困难。本文介绍了常用聚类的方法及其原理,并对其局限性和优势进行综合分析,试图通过融合不同的聚类算法思想,来综合利用特定算法的优点,使其不但具有能处理大数据量的能力,而且无需预设类别数目,从而来提高聚类的准确性并减少聚类的不稳定性。通过理论分析和实验证明,原始AP算法是不能解决大数据量的问题。我们通过融合原始AP聚类算法和K-Means聚类算法,提出了KMAP聚类算法。通过理论分析和实验,证明改进型KMAP新算法不但能解决原始AP聚类算法不能处理大数据的问题,提高了其适用的范围,而且解决了K-Means聚类算法受输入数据集的顺序影响而造成的不稳定的问题。同时针对KMAP出现的“K”值不易确定问题,提出了KCAP聚类算法,来减少“K”值对KMAP的影响,从而使KMAP算法达到无需预设类别数目。