基于图的半监督自步分类算法研究

来源 :南宁师范大学 | 被引量 : 0次 | 上传用户:ironfeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习和数据挖掘在视觉领域与自然语言领域中拥有举足轻重的地位,并随着大数据时代的到来承担着越来越重要的责任。大数据时代的发展推动着智能化时代的新生,现如今,人们能轻而易举获取大量低维、高维数据,而其中高维数据中包含大量未标记数据,已标记数据仅占很小一部分比例。对于以往机器学习,学习机在完善模型过程中需要大量标记数据参与到训练中,训练完成后方可对测试数据或者未知标签数据进行类别预测。在过去科学技术不发达,人工记录数据的时代,由于数据维数低、结构简单,监督式方法获得了很大的发展,直至现如今趋于完善的程度。但大数据时代到来之后,数据标记成本随着各行业高维数据规模呈指数级别的增长而增加,大量无标记数据的获取却毫不费力。因此,研究者在训练学习机时尝试将未标记样本参与到少量标记样本中进行组合训练,试图解决监督学习容易过拟合、无监督学习模型不准确等现状,由此半监督学习应运而生。在当今人工智能时代,半监督学习能充分利用无标记数据的特点使其成为机器学习的新宠,同时无需大量人为交互、海量未标记数据价值得以体现的好处也随之突显出来,半监督学习逐渐得到更多相关领域研究者的青睐。半监督学习的应用非常广泛,其中一个重要研究方向就是半监督分类。半监督分类能够利用大量未标记样本训练,同时仅需很少的标记样本参与。权衡监督分类与无监督分类利弊可以发现,半监督分类既能利用监督分类挖掘标记数据信息的优点,还能利用无监督手段去挖掘未标记数据所包含的结构信息。半监督分类建模需要模型假设,当模型假设逼近现实问题,半监督分类的优良性能才能突显出来,半监督分类基于常用的聚类假设与流形假设衍生出一些经典的半监督分类方法,其中基于图的半监督分类方法就是使用流形假设建模。基于图的半监督分类模型的优劣取决于构造图的质量高低,因此,挖掘数据内部结构对图反映数据分布、建立准确分类模型是相当重要的。本文基于现有的基于图半监督分类方法理论与最新研究成果为前提,展开如下研究工作:(1)通过研究分析,针对现有半监督分类方法中没有考虑噪声样本导致分类模型不准确的问题,提出一种结合稀疏图和自步理论鲁棒半监督分类算法。算法首先在基于流形正则化框架中采用自步学习理论优先选择可信度高的样本来训练目标分类模型,再依次加入可信度较低的样本,并采用l2,1范数对权重矩阵进行重构,直至所有样本参与训练或函数值不再变化,最终训练出一个稳定模型。自步学习理论能在拟合过程中,考虑训练样本的重要程度,把不相关或噪音样本排除在训练外。另外,稀疏表示构造的权重图能够低维流形数据通过用图的方式具象化,对不重要数据进行降权处理,减少不重要数据对结果的影响,同时对稀疏选择后的样本中的离群样本表现敏感。(2)除了噪音样本与维数灾难的干扰以外,算法分类性能高低也与构建图的质量优劣紧密相连。在前一方法提出基础上,提出了自表达动态图半监督自步分类算法,图构建步骤中优化特征集得到的相似度矩阵,得到更接近实际情况的准确图,并使用局部保留投影技术,使得在降维过程中数据局部结构保持原有形态。除考虑局部信息之外,还注重全局数据信息间的线性关系,通过属性自表达的方式使得每个数据都能用整体数据线性表达出来。提出算法同时考虑全局与局部信息,还解决构建图不准确的问题,并且对噪音样本同样具有鲁棒性。综上所述,本文的独特之处在于创新性的将自步学习与属性自表达,稀疏理论嵌入基于图的分类框架中,提出了两种新的半监督分类算法。不仅证明各算法收敛性,同时通过对比多种领域内优秀算法、采用双评价指标(准确率与F1分数)方式验证了所提出算法在大多数情况下都展现了优异的泛化能力。
其他文献
学位
学位
近年来,地聚物作为一种新型的绿色无机胶凝材料备受关注。由于地聚物本身的脆性较大,可以通过添加植物纤维进行增韧。由于植物纤维中的糖类等有机物会延缓地聚物的固化,因此本文选用三种不同方法对水稻秸秆进行预处理,采用正交实验、单因素实验探究制备地聚物基水稻秸秆复合材料的制备参数;还对比研究了处理前后水稻秸秆对复合材料的静曲强度、内结合强度、吸水性能及抗冻性能的影响;同时,还研究了处理前后混合水稻秸秆增强地
奇异摄动Volterra积分微分方程广泛存在于科学与工程领域.由于绝大多数奇异摄动Volterra积分微分方程很难甚至不能求得其精确解,故其数值方法引起了很多学者的兴趣.自适应移动网格方法已被广泛地用于求解一些奇异摄动微分方程,已有比较完善的数值方法.而对于奇异摄动Volterra积分微分方程,自适应网格方法的应用及数值解法相对来说比较少.基于此,本论文主要研究奇异摄动Volterra积分微分方程
学位
学位
本文主要研究光滑边界的Steklov特征值问题的小波配置法,小波Galerkin方法以及Fourier-Galerkin数值方法.首先,利用位势理论将微分形式的Steklov特征值问题转化为边界积分特征值方程.其次,在谱投影近似理论框架下分别用这三种数值方法对边界化后的积分特征值问题进行求解.最后对方法的收敛性和计算复杂度进行分析比较,得出Fourier-Galerkin数值方法的收敛效果最佳且计
分数阶微积分在近几年来得到广泛地应用,解决了许多整数阶微积分不能很好解决的复杂问题.一般情况下,很难得到分数阶微分方程的解析解.因此,研究分数阶微分方程的有效数值方法具有非常重要的意义.目前对于分数阶微分方程的研究,几乎所有的数值方法都是在均匀网格上构造的,只有少数文献给出分数阶微分方程的自适应移动网格算法以及相应的理论分析.于是,本文将研究分数阶微分方程的自适应移动网格方法.主要内容如下:在第一
学位
南宁市计划2022年初步建成国家生态文明建设示范市,随着人们生活水平的提高,城市化进程加快,一些不合理的开发与利用带来了一系列的生态环境问题。因此,研究南宁市近20年的生态环境质量有助于国土空间规划发展,同时有助于生态保护与经济的平衡发展。本文以南宁市为研究区,基于2000年、2005年、2010年、2015年及2019年5期遥感影像数据,利用支持向量机分类方法对2000年到2019年南宁市土地覆