论文部分内容阅读
在许多真实的大数据场景中,样本属性可通过传感器方便且廉价地获取,而其标签则需要专家给出,困难且昂贵。这导致未标记数据多,有标记数据少。如果只使用少量已标记的样本进行学习,传统的有监督学习算法训练得到的分类模型,往往存在欠拟合等缺点,导致分类精度不高。半监督分类充分利用未标记样本,提升分类器精度,近年来被广泛用于智能信息处理、图像处理、生命科学等领域。该方向主要有基于差异的方法、生成式方法、判别式方法和基于图的方法等。这些方法性能优越,并且数学理论完备、计算速度优越、分类精度出众等特点。然而,它们没有充分考虑未标记数据分布的不确定性与复杂性,导致算法的稳定性和鲁棒性欠佳。集成学习可以减少半监督分类中无标记样本的标注过程的不确定性,优化半分类决策边界问题,提升算法的抗干扰能力和可靠性。但是,半监督学习适用于标记样本缺乏的情况,而传统的集成学习本身就需要大量的标记样本进行训练,这两者之间存在矛盾。基于此,本文提出一种基于聚类集成的半监督分类方法,一方面提升了半监督分类的稳定性,另一方面解决了半监督分类与集成学习之间对标记样本的需求矛盾。该方法包含了以下两个的算法:1.结合初始中心优化和属性加权的κ-Means聚类算法(κ-Means Clustering Algorithm Based on Initial Center Optimization and Feature Weighted,COFW)。k-Means 是典型的无监督聚类算法,但其存在一些缺陷:随机选择的初始聚类中心往往会导致聚类结果不稳定;统一平等的看待所有属性,不能较好突出重要属性的价值。COFW利用全新的初始聚类中心选择方法获得k个初始聚簇中心,并结合初始属性权重进行初步聚类;然后,根据样本属性对聚类的贡献程度获得属性权重根据聚类精度来调整属性权重并再次执行聚类过程;重复执行上述过程直到聚类精度不再收敛,从而获得最终的聚类结果。2.基于聚类集成的半监督分类算法(Semi-supervised Binary Classification Based on Clustering Ensemble,SUCE)。已有的聚类算法无法直接作用于分类问题,必须充分利用有标记样本信息辅助分类,但此过程中无标记样本标签的标注具有不确定性,会导致分类性能不稳定。SUCE在不同的参数设置下,采用基于COFW、k-Means、EM、FarthestFirst和HierarchicalClusterer等聚类算法生成的大量基聚类器;首先对基聚类器进行评价和选择并得到样本的聚类标签;然后利用有标记的样本,得到样本的预测标签;最后对样本的预测标签进行集成学习得到一致性标签,即通过集成基聚类器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用C4.5,Naive Bayes,kNN,Logistic,OneR等基础监督学习算法对测试集样本进行分类。实验采用了 UCI数据库中的真实数据集。通过大量的参数调整以及与已有算法的对比,结果表明:1)COFW比k-Means具有更高的聚类性能;2)SUCE能提升基础分类算法的分类精度;3)当训练样本及其有限时,SUCE的分类精度提升明显。