论文部分内容阅读
聚类是数据挖掘和知识发现中的重要且有用的工具。由于层次聚类算法的运算速度快,输出结果容易解释,已在各种领域中广泛应用。本文针对层次聚类的不同使用场景(静态数据和流数据)对层次聚类算法提出优化改进方法。
静态数据层次聚类方法中,应用最广泛是凝聚型层次聚类(AHC)。现有的基于距离度量的AHC方法存在一个关键问题:无论采用何种从树状图提取聚类结果的方法,都难以将具有不同密度的相邻簇分开。本文针对静态层次聚类确定了现有AHC方法产生上述问题的根本原因,并表明使用数据相关核函数(而不是距离度量)是解决此问题的有效方法;提出对现有的层次聚类算法(例如现有的传统AHC算法,HDBSCAN,GDL和PHA)使用孤立核这一数据相关核进行核化;在每种算法中,实验评估表明,与距离,高斯核和自适应高斯核相比,使用孤立核产生质量更高或更纯的聚类树。
在对流数据聚类时,现有的层次聚类算法通常会遇到诸如可扩展性低和无法克服刚性之类的问题而很难实时有效的处理大规模数据集。本文针对流数据层次聚类,首次在层次聚类中引入基于核函数的集合相似度,并进行了调整以使得提出的算法具有捕获新样本之间的动态相似性和检测密度不同的簇的能力;提出具有高效的层次结构更新机制(高效的新数据插入和旧数据删除算法)KERCH算法,可以在流数据场景下不断地实时维护高质量的层次聚类树;在多个基准数据集上的实验结果表明,KERCH比其他可扩展的层次聚类算法更准确,更快。
静态数据层次聚类方法中,应用最广泛是凝聚型层次聚类(AHC)。现有的基于距离度量的AHC方法存在一个关键问题:无论采用何种从树状图提取聚类结果的方法,都难以将具有不同密度的相邻簇分开。本文针对静态层次聚类确定了现有AHC方法产生上述问题的根本原因,并表明使用数据相关核函数(而不是距离度量)是解决此问题的有效方法;提出对现有的层次聚类算法(例如现有的传统AHC算法,HDBSCAN,GDL和PHA)使用孤立核这一数据相关核进行核化;在每种算法中,实验评估表明,与距离,高斯核和自适应高斯核相比,使用孤立核产生质量更高或更纯的聚类树。
在对流数据聚类时,现有的层次聚类算法通常会遇到诸如可扩展性低和无法克服刚性之类的问题而很难实时有效的处理大规模数据集。本文针对流数据层次聚类,首次在层次聚类中引入基于核函数的集合相似度,并进行了调整以使得提出的算法具有捕获新样本之间的动态相似性和检测密度不同的簇的能力;提出具有高效的层次结构更新机制(高效的新数据插入和旧数据删除算法)KERCH算法,可以在流数据场景下不断地实时维护高质量的层次聚类树;在多个基准数据集上的实验结果表明,KERCH比其他可扩展的层次聚类算法更准确,更快。