论文部分内容阅读
在智能技术飞速发展的今天,各行各业的数据规模呈几何级数的增长。如何从海量数据中挖掘潜在的有用信息成为人们关注的焦点。聚类分析是数据挖掘技术的一个重要分支,其中的支持向量聚类(SVC)是一种基于轮廓的聚类分析算法。SVC的基本原理是通过建立某些准则,确定在原始数据空间描述簇轮廓的样本点,称之为支持向量。并对支持向量按照某些策略进行标记,标记相同的支持向量在原始数据空间中围成一个簇。虽然支持向量聚类已经得到广泛的应用,但仍存在不能很好地处理簇与簇交叠、对参数敏感、时间复杂度较高等问题。 本文在经典支持向量选取策略基础上,通过分别考虑数据的局部密度和模糊粗糙集模型,提出了基于kNN连通度的支持向量选取策略和基于模糊粗糙集的支持向量选取策略。在谱聚类标记方法(SCLM)的基础上,本文通过兼顾原始数据空间中数据的近邻关系,提出了一种改进的支持向量谱聚类标记方法(MSCLM),并在此基础上,构建了一种新的低时间复杂度的支持向量标记方法(NLM)。本文的具体研究内容如下。 针对支持向量选取存在冗余问题,本文通过计算每个样本点的局部密度,确定一种自适应的局部密度阈值,选取局部密度小于等于该阈值的样本点作为支持向量候补集,在这个集合上选取支持向量。针对簇与簇接近或重叠和簇内样本点分布不均匀的数据集,本文构建一种模糊粗糙集模型,通过计算每个样本点的模糊粗糙集上近似为样本点赋予权值,使簇间稀疏样本点被判定为边界支持向量,有效地避免了簇内稀疏样本点被选为支持向量。理论表明,该方法确定的支持向量在原始数据空间中表现为同簇距离较近,异簇距离较远,而在高维特征空间中,同簇支持向量间角度较小,异簇角度较大。 针对SCLM中FCM聚类结果不能真实完全反映原始数据集分布情况的问题,本文在原始数据空间中引入了样本点间的近邻关系度量,用此度量对FCM聚类标记结果进行后续处理,提出了一种改进的支持向量标记方法(MSCLM),该方法提高了支持向量标记的准确性和数据聚类精度。为了降低支持向量标记的时间复杂度,本文基于支持向量间的空间关系提出了一种简化的支持向量标记方法(NLM)。本文分别对MSCLM、NLM两种标记方法做效果分析,验证了两种方法的有效性。最后,将MSCLM、NLM与SCLM以及其他三种标记方法作对比实验,证明了MSCLM、NLM两种标记方法的优势。