面向大规模不平衡数据的支持向量机算法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:yuan398699360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据分析技术发展迅速,数据挖掘对产业界和学术界产生了积极的推动作用。分类问题是数据挖掘中的重要问题,支持向量机是一种分类效果出色的分类算法,然而支持向量机对不平衡数据分类的准确性不高;另一方面,数据规模的爆炸式增长导致传统分类算法训练时间漫长,促使研究人员研究分布式的分类算法。本文研究支持向量机对大规模不平衡数据的分类问题,并围绕提升不平衡数据的分类准确性和和缩短分类算法对大规模不平衡数据的训练时间两个方面展开研究。本文的工作和贡献具体如下:  针对分类算法对不平衡数据分类准确性差的问题,本文提出了基于Boosting的组合支持向量机,该算法通过本文提出的一种基于聚类的分层降采样算法用于数据预处理促使数据平衡,该算法结合提升学习思想,通过本文提出的提升学习规则,进一步提高支持向量机对不平衡数据分类的准确性。分析表明,基于K-means的分层降采样算法能促使数据变平衡并且采样的数据能代表原始数据的分布;实验结果表明,基于Boosting的组合支持向量机可以在不平衡数据上较大地提升分类准确性。  针对不平衡数据规模增大导致不平衡数据分类算法训练时间长的问题,本文提出了基于分组训练模型的分布式BaggingSVM算法,该算法集成了一种改进的层叠支持向量机算法对数据进行预处理,以数据分割为思想实现对分类算法的分布式训练。实验结果表明,分布式BaggingSVM以牺牲微弱的分类准确性为代价,显著地缩短训练时间。
其他文献
该文讨论了对象关系数据库的面向对象的特性,如创建基本数据类型,构造复杂数据类型,对继承的支持和对规则的扩展;并介绍了对象关九据库中的查询优化.飞行试验管理系统是一个
该文将设备管理模块从信息管理系统中提取出来,从系统的高度深入研究了设备管理 的内含和性质.就读研究生期间,该文作者利用动态机制和GIS为天津市热电公司开发了一 个设备管
该文以传统的Web结构及其应用集成框架为背景,分析了这些框架结构在集成目前复杂应用时存在的局限性,同时讨论了CORBA(公共对象请求代理结构)分布对象技术在Web应用集成方面
随着中国高等教育体制改革的深入,建设基于校园网的网络财务系统已经成为校园信息化建设和高校财务工作的一项重要课题."基于校园网的学费管理和财务查询系统"的设计开发是这
该文以江苏高速公路网联网收费工程为对象,探讨高速公路网联网收费技术.首先分析路网收费技术的现状,并根据联网收费需求,提出了路网收费的原则和实现方案.在对几种高速网络