基于不平衡数据的支持向量机算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xdq2269586
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机作为现今最流行的分类算法之一,已经被广泛地应用于生活中的各个领域。它不仅有着较为完善的理论背景,在数据分类时也有很好的表现。支持向量机不仅可以处理简单的线性可分的数据集,结合核函数,还可以将非线性可分的数据集映射到高维空间上,从而得到不错的分类效果。现实生活中的分类问题往往是非线性可分的,所以在应用支持向量机时,核函数的选择及其相应参数的调整变得尤为重要。考虑到高斯径向基核函数无论对于大样本还是小样本数据集都有着较为稳定的分类效果,且它的优越性已由大量的实际问题验证,所以本文采用的即是这一核函数。除此之外,支持向量机还有一个重要参数,称为惩罚系数C,再加上高斯核函数的超参数,即是支持向量机所需要确定的两个主要参数。本文的研究重点即是为支持向量机选择合适的参数C及.文章的主要思路是基于爬山算法的思想,结合回归分析的模型构建理论,提出一种支持向量机参数选择的新算法。爬山算法相较于启发式算法,其思路更加清晰,算法也更简洁,在处理大型的数据时,可以节约时间成本。但它也有过快收敛,陷入局部最优解的问题,因此,本文加入了回归分析构建的模型,缓解了这个问题,且为爬山算法在陷入局部最优解时,提供了下一步的参数选择方向。随着科学技术的发展,信用卡欺诈已经成为了金融交易市场中大多数银行所头疼的问题之一,本篇论文主要解决的实际问题就是欺诈交易的识别。然而,在进行信用卡欺诈可能性预测时,对方提供的数据集中,违约的客户往往是极少量的。所以,在用支持向量机进行分类之前,需要对这种不平衡的数据集进行重采样处理。本文选择的重采样技术是SMOTE算法。
其他文献
近年来,许多学者关注领导风格对员工行为的影响,激烈的市场竞争亟需一批敢于冒险、善于创新、不畏风险的员工,授权型领导方式越来越受到青睐,这种新型管理方式也受到学者的重视。科研人员是企业科技创新的关键力量,创新是企业维持竞争力,提高综合实力的创新的源泉,对其管理方式更合适鼓励式和支持式,但目前关于授权型领导对员工的影响存在一定分歧,关于授权型领导对科研人员的创新行为影响尚未定论。本文通过收集、整理并总
农药残留和真菌毒素就是在农产品中两类典型的污染物,对人类健康和社会环境构成了严重威胁,已成为全世界共聚焦的重大安全问题。因此,开发快速、灵敏的农药残留及真菌毒素检测方法对保护人类健康和社会环境有着重要的意义。近年来,利用电化学传感器来检测农产品中的污染物的研究越来越多。其中,修饰材料的选择对提高电化学传感性能是至关重要的,碳基纳米杂化材料因其优异的电化学性能备受关注。本文通过自组装方法制备了系列碳
武功山位于江西省中西部,海拔1918.3 m。武功山高海拔地区有着大面积的山地草甸,且在海拔1600 m左右分布着明显的灌草交错带,作为灌丛群落和草甸群落的过渡区域,交错带从生态学角度而言具有脆弱性和敏感性。选择三个不同坡向的分布有灌草交错带的坡面作为研究区,将灌草交错带界限处定为坡位1,并沿坡面向上,每隔20 m设置一个坡位。东向坡面的坡位1~3为下坡区域,坡位4~7为中坡区域,8~10为上坡区
学位
诺奖得主J.M.库切作品中关涉的动物伦理问题,是国内外库切研究学界关注的热点。近年来,从共情的概念着手探讨伦理意蕴,正逐渐成为一个重要的研究趋势。本论文从共情、同情、同情想象的关系出发,对库切的小说《等待野蛮人》、《耻》、《伊丽莎白·科斯特洛:八堂课》进行文本分析,剖析库切作品中的人与动物伦理关系,旨在揭示共情在库切动物伦理中的作用。论文包括引言、主体、结论三个部分。引言部分包括研究背景、研究综述
具身认知观认为一个人的身体、行为、感知和情境都参与于我们的认知过程中。根据具身认知观,人们能在语言理解过程中自动地激活感知运动系统,强调感知运动系统在语言理解中起着重要作用。具身效应是指身体或环境变量对人类认知加工的影响。以往的具身效应相关研究证明了字面语言的加工中存在具身效应,却较少关注隐喻中是否存在具身效应。此外,大多数字面语言的相关行为研究采用动作-句子一致性效应证明了动作语言理解与动作之间
吡啶结构广泛存在于天然产物、药物分子、生物活性分子、有机催化剂和配体中。用廉价易得的原料多样性地合成这些化合物具有重要的应用价值和研究意义。本论文分别以简单易得的单环1,2,3-三嗪与酮或乙腈衍生物为原料,在碱的促进下通过串联的亲核加成反应高效地构建多取代吡啶。通过改变底物类型的方法,能以正交的方式较好地在吡啶C2、C3、C5和C6位引入取代基,解决吡啶不易官能团化的难题。不但为相关药物分子及活性
过去,对于城市空间形态的建设,都是国外有好的理论和范式,我们就迁移过来,小街区也是如此。但实际上并不能完全实现。空间形态模式的形成,与其社会制度发展的阶段和社会大环境是密切相关的。它代表了一定社会制度下特定社会的人们的特定需求在物理形态上的表达,其内部必然有自发逻辑隐匿其中。单纯的移植其他国家好的模式,由于其内在构成逻辑不同,并不能解决实质性问题。在当前城市由增量扩张向存量更新的发展过程中,为了城
随着计算机技术的发展与普及,软件数量不断增多,软件的的规模和复杂度也在大幅增加,软件的开发、维护以及重用的难度也随之大大提高。程序理解是程序进行分析、抽象、推理的过程,在软件开发的各个环节发挥重要作用。通过程序理解充分挖掘出程序中的隐含特征,将代码抽象为特征向量从而应用于代码补全、代码纠错、代码克隆检测等下游任务,能够助力于软件工程、计算机教育等领域。深度学习是一种数据驱动的端到端的方法,在大规模
庄子学说在哲学史上的地位突出,影响深远。由于时代的不同,对解庄侧重点也有所不同。明代庄学著作颇丰,李贽在注解《老子》后,开始注解《庄子》,对庄子思想有了新的注解方向。李贽在解庄特点层面上有创新,不拘泥于传统的解庄方式,富有开放、自由、自我的精神。而在具体思想内容上,李贽综合佛学和道家学说的思想,在注解庄子的同时赋予了自己的独特思考。李贽在注解庄子后,其启蒙思想已经更加系统、深刻。全文共分为六部分: