基于聚类集成的半监督分类算法研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:pearlpink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多真实的大数据场景中,样本属性可通过传感器方便且廉价地获取,而其标签则需要专家给出,困难且昂贵。这导致未标记数据多,有标记数据少。如果只使用少量已标记的样本进行学习,传统的有监督学习算法训练得到的分类模型,往往存在欠拟合等缺点,导致分类精度不高。半监督分类充分利用未标记样本,提升分类器精度,近年来被广泛用于智能信息处理、图像处理、生命科学等领域。该方向主要有基于差异的方法、生成式方法、判别式方法和基于图的方法等。这些方法性能优越,并且数学理论完备、计算速度优越、分类精度出众等特点。然而,它们没有充分考虑未标记数据分布的不确定性与复杂性,导致算法的稳定性和鲁棒性欠佳。集成学习可以减少半监督分类中无标记样本的标注过程的不确定性,优化半分类决策边界问题,提升算法的抗干扰能力和可靠性。但是,半监督学习适用于标记样本缺乏的情况,而传统的集成学习本身就需要大量的标记样本进行训练,这两者之间存在矛盾。基于此,本文提出一种基于聚类集成的半监督分类方法,一方面提升了半监督分类的稳定性,另一方面解决了半监督分类与集成学习之间对标记样本的需求矛盾。该方法包含了以下两个的算法:1.结合初始中心优化和属性加权的κ-Means聚类算法(κ-Means Clustering Algorithm Based on Initial Center Optimization and Feature Weighted,COFW)。k-Means 是典型的无监督聚类算法,但其存在一些缺陷:随机选择的初始聚类中心往往会导致聚类结果不稳定;统一平等的看待所有属性,不能较好突出重要属性的价值。COFW利用全新的初始聚类中心选择方法获得k个初始聚簇中心,并结合初始属性权重进行初步聚类;然后,根据样本属性对聚类的贡献程度获得属性权重根据聚类精度来调整属性权重并再次执行聚类过程;重复执行上述过程直到聚类精度不再收敛,从而获得最终的聚类结果。2.基于聚类集成的半监督分类算法(Semi-supervised Binary Classification Based on Clustering Ensemble,SUCE)。已有的聚类算法无法直接作用于分类问题,必须充分利用有标记样本信息辅助分类,但此过程中无标记样本标签的标注具有不确定性,会导致分类性能不稳定。SUCE在不同的参数设置下,采用基于COFW、k-Means、EM、FarthestFirst和HierarchicalClusterer等聚类算法生成的大量基聚类器;首先对基聚类器进行评价和选择并得到样本的聚类标签;然后利用有标记的样本,得到样本的预测标签;最后对样本的预测标签进行集成学习得到一致性标签,即通过集成基聚类器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用C4.5,Naive Bayes,kNN,Logistic,OneR等基础监督学习算法对测试集样本进行分类。实验采用了 UCI数据库中的真实数据集。通过大量的参数调整以及与已有算法的对比,结果表明:1)COFW比k-Means具有更高的聚类性能;2)SUCE能提升基础分类算法的分类精度;3)当训练样本及其有限时,SUCE的分类精度提升明显。
其他文献
简要说明"挑战杯"全国大学生课外学术科技作品竞赛的两大特点——课外性和开放性,并结合这两大特点和普通高校大学生的实际情况,从选题、填写申报材料、完成作品、决赛前准备
教学论研究范式在教学论学科发展中起着关键作用。在我国,以凯洛夫教学理论模式为基础发展起来的主流教学论范式被动摇后,教学研究的新格局、新体系并未形成,教学论研究范式
<正> 意大利男高音,第一位录制了真正唱片的歌唱家。内莉·梅尔芭(Nellie Melba)夫人:"我永远忘不了蒙特卡罗(MonteCarlo)那一晚,大公、亲王、侯爵夫人们都到了场,还有无数观
近年来,黑龙江省对俄跨境电子商务已初具规模,对俄跨境电商配套设施也逐步完善。但中国电商企业进军俄罗斯市场的同时,欧美及俄本土企业也快速发展,加之俄罗斯的物流,支付体
工程陶瓷由于其极高的硬度和脆性,成形加工十分困难,特别是成形孔的加工尤为困难。以往学者的研究中所用的工具基本上为烧结金刚石钻头或者电镀金刚石钻头,但烧结工具的磨粒
针对国家土壤环境监测网管理需求和土壤监测技术特点,按照“建规则—控过程—设监管—有评价”的国家土壤环境监测网质量管理总思路,建立了具备全程序、全要素管理理念,内部
伴随着我国改革开放政策的实施,我国在经济上迅猛的发展势头得到了国际上资本主义国家的注意,紧接着我国与国外许多国家迅速建立了良好的经济贸易关系,为我国的经济发展打开
数控机床以及由数控机床组成的制造系统是改造传统产业、构建数字化企业的重要基础装备,现在数控编程及控制系统已有小型化的趋势;基于此,我们提出开发面向车间数控设备的嵌入式
<正> 四肢血管病是指血栓闭塞性脉管炎、闭塞性动脉硬化、雷诺氏病、变应性结节性皮肤血管炎、深部血栓性静脉炎等。我根据“审因论治”、“异病同治”的原则,运用温经散寒法
石油工业已经成为了关系世界经济发展的最重要因素,腐蚀的破坏造成原油大量损失,对环境造成严重污染,严重影响石油工业的发展。为此,人们使用了表面涂层、外加电流阴极保护、