论文部分内容阅读
空间数据挖掘是指从包含空间信息的数据库中抽取隐含的知识、空间关系或有意义的特征模式。它在理解空间数据、获取空间与非空间数据的内在关系上具有重要意义。空间聚类分析是空间数据挖掘中一个重要的研究方向,它是按照某种相似性度量值,对空间数据集中的数据对象进行归类和标识成簇,使得同簇中的对象尽可能相似,而不同簇间的对象彼此不相似。空间聚类分析既可作为独立的空间数据挖掘工具,又可作为其它方法的预处理方法,目前已经应用在地理信息系统、遥感、医学图像处理、环境研究等领域,具有重要的实用价值。 在空间聚类算法研究方面,目前已经有很多比较成熟的聚类算法,如CLARANS算法、BIRCH算法、DBSCAN算法、CLIQUE算法等。虽然其中很多算法得到成功应用,但是在某些方面仍然存在一定局限。如DBSCAN算法将密度概念引入聚类,能生成任意形状的聚类,但该算法在海量数据的处理、高维数据的聚类方面具有明显不足。而CLIQUE算法采用网格和密度的思想,解决了高维数据的聚类问题,但面临障碍约束、复杂形状等情况下的聚类存在许多问题需要解决。本文主要围绕障碍约束问题和提高算法效率方面对空间聚类算法进行研究。 本文针对空间障碍约束下的聚类问题,提出了基于CLIQUE算法的空间障碍约束聚类算法,有效的解决了二维空间障碍约束下的聚类问题。该算法通过引入障碍网格的概念和障碍物的网格化表达,使其能够处理任意形状的障碍约束聚类。在此基础上针对任意形状的实体目标对该算法进行扩展,解决了任意形状的聚类问题。此外由于基于网格的聚类算法对高维空间具有良好的拓展性,因此该算法很容易拓展到高维空间的情况。实验证明新算法针对障碍约束下及任意形状的聚类问题均能取得较好的效果。 本文还针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法。该算法主要思想是:选择数据库中无任何标识的点进行核心点判断,围绕核心点生成源簇,再对含有公共点