论文部分内容阅读
数据挖掘是从大量数据中提取人们感兴趣的信息和知识,这些知识往往是隐含的、有用的、尚未发现的信息和知识.数据挖掘已经引起了人们的广泛关注,目前成为国内外数据库和信息决策领域的最前沿研究方向.聚类是数据挖掘领域最为常用的技术之一,用于发现在数据库中未知的对象类.聚类是现实世界中普遍存在的现象,其应用非常广泛.本文主要围绕高维聚类对数据挖掘的理论和方法进行了以下几方面的工作:首先归纳了数据挖掘技术的发展状况,包括数据挖掘的定义、数据挖掘的流程、功能等基本概念和技术,而且还探讨了数据仓库和数据挖掘的关系.数据仓库作为一种新型的数据存储方式,为数据挖掘提供了新的支持平台,其内在的对决策的支持能力,为数据挖掘开辟了新的空间.其次对聚类问题进行深入地研究.迄今为止,人们提出了许多用于大规模数据库的聚类算法.其中大多数算法可以高效地处理低维数据,但是随着数据的维数增加,它们的执行效率将会急剧下降.而少数可以处理高维数据的算法却存在效率低下或聚类结果质量差等问题.通过对高维聚类问题的深入研究及对已有高维聚类算法的分析比较,本文提出了一种可以高效地处理高维稀疏聚类问题的基于特征标识的聚类方法(SCM).最后论述了SCM聚类方法在连锁超市中的应用,其中构建了同时支持营销分析及多维数据分析的数据模型,基于该数据模型的数据存储,直接为发现聚类知识提供了高质量的数据源.