论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,积累了大量的数据,这些数据仅仅依靠数据库的查询检索机制已经远远不能满足现实需要,数据挖掘正是为迎合这种需要而产生并迅速发展起来的一种新的数据处理技术。数据挖掘(Data Mining),也称数据库的知识发现(Knowledge Discovery in database)是指从大量的原始数据中挖掘出隐含的、有用的、尚未发现的知识和信息。聚类分析是数据挖掘的重要组成部分。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为簇或类别的子集。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一聚簇中的对象具有尽可能大的相似性,而不同聚簇中的对象具有尽可能大的相异性,聚类分析主要解决的问题是如何在没有先验知识的前提下,实现满足这种要求的聚簇的聚合。 由于聚类分析在现实数据处理中的重要性和特殊性,近年来在该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如基于划分(Partition-Based)的聚类方法、基于层次(Hierarchical-Based)的聚类方法、基于密度(Density-Based)的聚类方法、基于网格(Grid-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面,而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时,则仍存在若干尚未解决的问题,主要基于聚类分析方法进行了研究,主要工作包括: 1、聚类分析结果的精确性问题。聚类结果的精确性是指聚类分析对原始数据集进行划分后,各子类别间边界的明确性及各被聚类对象所属类别的准确性。现有聚类算法往往对较小的数据集聚类精度较高,而一旦数据对象增多,往往得不到令人满意的聚类结果。所以,本文就如何提高聚类算法的聚类准确性进行了研究。 2、时间复杂度和空间复杂度过大的问题。由于数据集中数据的增大和数据复杂性的提高,数据挖掘算法无论是从算法运算的时间上,还是从算法本身所需要的存储空间上都急剧的膨胀,使得在现有资源下很难实现数据集的最终聚类。本论文在对各类算法深入分析的基础上,选取一种复杂度较低的算法进行了现实数据中较大数据集的聚类尝试。 3、基于层次的聚类方法的改进。在聚类分析方法中,基于层次的方法是处理较大数据集中较为常用的方法之一,该类方法在有限的资源(如内存、CPU)下,通过采用一定的算法结构,得到尽可能好的聚类结果。但是该类算法不足之处在于阈值收敛速度过慢,对任意形状的聚类结果较差,从而给该方法的应用带来了障碍。本文提出了针对基于层次方法的改进。 4、聚类结果可视化的解决方案。信息可视化是当前人机交互进行数据挖掘的前提,由于数据集合规模的不断扩大,如何将高维数据通过二维空间表示出来,并简洁的、有效的为用户提供一个数据的可视化界面成为研究热点。本文就在数据挖掘尤其是聚类结果可视化方面存在的问题进行了深入的分析和阐述,并且给出了相应的解决方案。 本论文的组织结构为:第一章为引言,进行背景知识介绍,阐述了数据仓库和数据挖掘的基本概念以及数据挖掘所包含的主要内容;第二章重点论述了聚类数据挖掘的方法及评价标准,对各类算法进行总结评价;第三章面对较大数据集对现有的层次聚类算法中存在的缺点提出相应的解决方案,在不增加算法复杂度的基础上,提高算法的聚类精确性;第四章阐述了聚类结果可视化,对现有数据挖掘中数据可视化技术存在的问题进行总结,最后给出一种在二维空间中表示多维数据的方法,应用于聚类结果的可视化;第五章采用聚类分析和分层可视化对海尔销售数据进行聚类分析,帮助决策层区分不同的客户群,从而制定相应的服务政策:第六章对提出的设计进行简要的评述,对该论文所作的研究工作做出总结,并阐明今后课题的主要研究方向。