论文部分内容阅读
传统的聚类分析仅可处理一些简单的数据集合,复杂的数据结构和庞大的数据规模对这些传统方法来说是一个重大的难题。由于形状不规则、密度不均匀的数据集合,使得存在明显局限性的传统方法无法解决这些问题。为了提升聚类效果及其广泛的应用性,本文围绕如何解决任意数据集合中不同类型簇的准确识别的问题展开研究,论文主要工作如下:(1)基于簇结构的有向邻域链条方法。传统聚类算法中,基于几何距离的相似度量标准,在处理任意形状、任意密度簇的聚类问题时,不符合实际情况而且丢失一些能够反映真实情况的重要信息。本文从数据点之间的邻域关系入手,建立邻域链条的最优模型,以准确刻画数据点之间的相似度。通过分析发现邻域链条具有非对称性,为了避免对称运算带来新的问题,提出了有向邻域链条,实现簇内点相似度的最大化和簇间点相似度的最小化。(2)基于簇结构的有向邻域链条聚类方法(FDNCCS)。假设相似度量为有向邻域链条,但是不同的聚类方式同样会导致大的聚类误差。为了提高聚类效果,本文在有向邻域链条的基础上提出了一种新的聚类方法:最优母点匹配法,并在有向邻域链条模型基础上改进得到新的模型。主要任务就是让每个点找到与其相似度最高的高优先级匹配点作为它的母点,每个点的母点都存在母点,这样当所有的点都找到它们的母点,最终出现一个树形图。根据先验信息簇的数量,我们可从树形图中找到一定数量的冗余支路,并将这些冗余链条删除得到最终的簇。实验表明该算法与已有的算法相比,在发现复杂簇方面更具优势且建立成功链条的数目减为基于CMNC算法的一半。(3)引入双层分类的快速邻域链条聚类方法。由于FDNCCS算法的计算量仍然很巨大,所以在FDNCCS算法中引入双层分类方式以加快运行速度。本文首先建立双层分类模型,并给出模型的求解方法。利用这种双层分类方式,在第一层先快速求解出最终邻域数的大小。这种双层分类方法的主要计算量在第一层,第二层利用第一层的求解结果求解出最终子点(目标点)和其最优匹配母点所在有向邻域链条上所有连接点的状态值。实验表明该算法的执行速度要比FDNCCS算法的执行速度快很多且聚类结果不变。(4)基于图划分的快速邻域链条聚类方法。前面所提的算法繁琐且很难理解,为了能够高效简单地实现数据集合的分类,本文又进一步提出了一种基于图划分的快速邻域链条聚类算法。首先第一阶段建立邻域连接性模型,并给出模型的求解方法,依据数据点之间的邻域连接性将数据图划分为若干子图。第二阶段建立了子图相似性度量标准,依据此标准完成子图的合并,最终得到真实的簇。实验表明该算法的执行速度要比前面算法的执行速度快很多且聚类结果不变。