基于采样方法的不平衡学习研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zhi911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人们的生活中存在大量的不平衡数据。研究表明,传统以最大化分类准确率为目标的机器学习算法倾向于将待测试样本划分为多类,而忽视少类的识别率。然而,通常少类样本具有重要的信息,是人们感兴趣的对象。对于分类问题,我们在设计分类器时需要考虑数据的不平衡特性,否则学习算法可能产生错误的决策。不平衡学习存在两种主流的方法:数据和集成层面的方法,其中,数据层面的方法一般有过采样、欠采样和混合采样,而集成的方法通常是指结合Bagging或Boosting的算法。在本文中,我们重点研究了过采样和欠采样(统称为重采样)方法,然后将其与集成学习相结合进行了推广:(1)针对稀疏样本和邻域异类样本较多的样本容易被分类器错分的问题,提出了基于样本加权的过采样方法。该方法对这两类样本赋予较大的权重,进而合成更多样本为学习算法添加新的样本信息。(2)通过对支持向量机SVM的研究,分类结果通常偏向于多类样本,且与分类面相距较近的样本保留较多的分类信息。因而,本文提出了基于间隔的欠采样方法,将分类面朝着多类样本空间的方向平移适当的距离,对相距修正后的分类面较近的多类样本实施欠采样。在KEEL不平衡数据集上的实验结果表明,本文方法提升了不平衡数据的分类性能。
其他文献
伴随着传感器,网络和流媒体技术的进步,从不同视角观察到的或由不同传感器捕获的大规模多维数据的处理,受到了研究者的广泛关注。多源数据可以形成多路数组,而张量为这些数据
由于风电出力具有间歇性、波动性及反调峰特性,风电大规模接入电力系统中的消纳问题亟待解决,这一问题在风电资源丰富的“三北”地区尤其明显。由于我国热电机组“以热定电”
本文的研究内容依托于国家自然科学基金项目“LED光源光谱/色温对隧道各段照明的适用性研究”。在白天,当驾驶员驾车驶入隧道时,由于隧道内外照明环境的不同,会产生“黑洞效应”,并将出现短暂的失明现象,严重影响行车安全,尤其是隧道的入口段交通事故频发,因此,研究隧道入口段的暗适应很有必要。光源照明给人的直观感受是亮度和光色。本文研究的是白昼隧道入口段的暗适应。暗适应过程主要与两个因素有关,一个是暗适应开
搜索式无载体信息隐藏是新近提出的无载体信息隐藏方法的典型思路,该类方法通过检索大数据库来寻找自然无修改载体来表达秘密信息以对抗密写分析的检测。但这类方法存在的问
石油中存在着大量的含硫化合物,在燃烧过程中会生成硫氧化物对环境造成十分严重的影响。石油中存在的噻吩类物质一直是石油脱硫中较难去除的化合物。随着人们对环境保护的意识越来越强,对于石油中硫含量的限制也越来越高。而如何有效地去除噻吩类化合物是石油加工过程的一大难题。氧化脱硫是生产超清洁燃料的最具前景的技术,可以脱除加氢脱硫技术难以去除的苯并噻吩、二苯并噻吩及其衍生物等。而常规的氧化脱硫需使用催化剂来促进
目前,临床上用于骨缺损修复的生物材料主要包括不可降解的金属材料、可吸收的有机高分子材料和生物陶瓷材料等。其中钛合金等生物惰性材料需要二次手术取出,增加了患者的创伤和费用负担,而可降解生物材料力学性能差,无法满足承载部位的骨替换。近年来,生物可降解金属材料逐步发展,其特性能够弥补传统金属材料和可降解生物材料的局限,具有十分广阔的发展前景。本课题主要探索钙磷涂层多孔锌合金支架材料在颅颌面骨缺损修复中的
学位
近年来,人体动作识别已成为计算机视觉领域的重要研究方向,广泛应用于人机交互、视频监控、虚拟现实等领域,对于人工智能发展有重要的推动意义。动作识别在受限的实验环境条
姿控飞轮是轻型敏捷型军用卫星姿控系统的核心部件。近年来,采用低密度、高强度、高模量的碳纤维复合材料进一步改善飞轮的转动惯量-质量比等性能已成为主要趋势。国内卫星姿
随着中国旅游业的快速发展以及国际声望的日益提高,近年来到中国旅游的外国游客越来越多,根据世界旅游组织的评估,中国将在2020年发展成为世界排名第一的旅游目的地国家。入