基于欠采样不均衡数据SVM算法与应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:luminfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine, SVM)算法是以统计学习理论为基础的一种机器学习方法,它以其扎实的理论基础以及完整的理论推导,成为处理小样本学习、非线性、局部极小值等问题的有效工具。之前的神经网络学习方法,时常在速度、稳定性以及泛华能力方面出现种种问题,但是支持向量机方法却在这些方面达到了较为满意的效果。由于支持向量机算法通常研究的是均衡状态下数据的分类,然而在数据不均衡的状况下,效果很不理想,因此对于处理不均衡数据下支持向量机算法的研究成为了近些年很多学者们的关注对象。在支持向量机算法的基础上对数据层和算法层上进行改进,可以使数据达到均衡。在数据层的处理方面,少数类数据通常运用过采样的处理方式,而多数类数据通常都是使用欠采样的方法作出改进。本论文对于如何使不均衡数据通过欠采样方式达到均衡,提出了两种不同的算法,一种为基于谱聚类欠采样不均衡数据SVM算法,另一种为基于精简集欠采样不均衡数据SVM算法。谱聚类欠采样算法在处理数据层上时,将多数类数据在核空间里使用谱聚类方法,对具有代表性的数据点与少数类数据进行样本训练,在得到良好的分类界限的同时提高了分类性能,并在算法的最后与其他不同算法进行了对比。基于精简集欠采样不均衡数据SVM算法除了考虑不均衡数据SVM分类性能,还对算法的速度进行了一定研究与学习,该算法在保持原多数类数据空间结构不变的前提下,在核空间中进行精简集算法处理,通过对多数类数据权重的确定和数据样本到多数类数据中心的距离选择出具有代表性的向量。由于算法是对于精简集的支持向量进行训练,所以在运算速度上有大大地提升,在算法的最后同样与其他分类算法进行了对比分析。本论文的最后将提出的谱聚类欠采样算法应用到了故障检测的领域,在轴承检测上分别对滚动体故障、外圈故障以及内圈故障进行了相关数据的相应检测,同时对检测中的参数在算法中所起到的作用加以分析,使该算法应用到实际情况之中,让支持向量机算法在不均衡数据处理方面得到真正的应用。
其他文献
随着国家限抗的要求越来越严,用中草药替代抗生素和激素是饲料添加剂领域的现实需求,发明一种猪专用促生长中草药饲料添加剂,具体药物组成及质量份数比如下:曼陀罗叶3~6份,五
以天然气一段转化串二段纯氧部分氧化制备的合成气为原料,利用ASPENPLUS对合成气一步法合成二甲醚(DME)过程的CO2利用率进行模拟研究。结果表明,采用一步法合成二甲醚如果存在水
制备了用于正庚烷/氮气分离的PDMS/PVDF复合膜。分析讨论了原料气压力、流速、原料气中正庚烷浓度、透过侧压力及操作温度等因素对气体分离性能的影响。在一定的操作条件下,当原
非质量氧同位素分馏效应(mass independent oxygenisotope fractionation)研究为一些重大地质科学问题的解释开辟了一条新途径。在简要介绍非质量分馏理论后,重点评述了非质
目的:本研究旨在观察中药干预治疗冠心病稳定型心绞痛的疗效及安全性。方法:本试验选取符合冠心病稳定型心绞痛(气虚血瘀,痰浊阻络证)诊断标准的患者240例,随机分为治疗组和对照组,
葛水平是赵树理故乡走出来的当代著名女作家。在乡土文学边缘化的今天,她的小说给了我们一种不屈从潮流的独特感受,使我们更加真实地理解底层人民生命追求中的韧性。2004年其处
据国际肥料工业协会(IFA)在第77届年会上发布的“全球肥料和原材料供需展望”报告估计,全球合成氨产能将由2008年的1.809亿t增长至2013年的2.178亿t。2008年全球合成氨产量为1.528
绿色生态鸡的饲养模式主要是按照自然的规律,在自然条件下放养鸡群,任鸡群以自由的方式进行采食,可以有效提高饲养生产的环保性。绿色生态鸡的饲养符合现在饲养生产的环保理
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技