论文部分内容阅读
谱聚类算法能对任意形状的样本空间聚类出较好的结果,近年来在数据挖掘、机器学习等领域得到了广泛关注。选择性集成能降低存储需求,提高预测速度,改善集成学习机的预测效果,由此成为研究热点。本文在谱聚类的背景下采用选择性集成方法,以期达到更好的聚类效果。现有研究表明,谱聚类中前k个最大特征值对应的特征向量不一定使聚类结果达到最好,因此有必要研究特征向量的选取问题;而一组特征向量也未必能充分表达原数据的结构信息,因此需要考虑集成策略。本文采用特征向量组的选择性集成方法来提高谱聚类性能,其中涉及对特征向量的评价、基特征向量组的选取、选择性集成策略等问题。首先,提出了谱聚类中特征向量的Bagging选取方法。利用基于成对约束的特征向量评估函数Constraint Score对训练数据集的特征向量进行评价,选取较好特征向量;然后采用Bagging策略将不同约束下选择的特征向量进行集成,得出较好特征向量的组合;最后对测试数据集进行谱聚类。通过实验证实该算法选取的特征向量对测试数据集可以得出较好的预测结果。其次,提出了谱聚类中特征向量的动态选择性集成方法。对于一个数据集,利用上述的Bagging选取方法,给出较好的基特征向量组来有效区分同类别和不同类别的数据,此时区分能力强的基特征向量组会多次被发现;然后以测试数据在训练数据中的l-最近邻的聚类性能来动态评价每组特征向量,选出少量几个参与投票的特征向量组;对测试数据集的这几个特征向量组数据进行谱聚类,并对结果进行簇配准,给出最终的聚类结果。以上动态选择性集成方法在选择基特征向量组时考虑了特征向量组的区分性和多样性,同时考虑了特征向量组对测试数据的l-最近邻的聚类性能,因此也注意到特征向量组的聚类精度。实验表明,采用该方法能进一步提高测试数据的聚类性能。最后,以实验方法研究了集成学习中准确率和多样性的关系,判断二者之间是否存在某种关联。综上,本文主要研究谱聚类中特征向量的选择与集成方法,通过实验验证了所设计的选取算法与集成策略的有效性。