基于数据筛选的不平衡数据重采样方法研究

来源 :山西财经大学 | 被引量 : 2次 | 上传用户:spsnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据的分类问题一直是机器学习、模式识别等学科的研究热点之一,在风险评估、医疗诊断、入侵检测等实际问题中具有广泛的应用。在不平衡的分类问题中,小类数据经常能够提供更有价值的信息,如信用卡使用记录中的异常使用,异常网络使用行为等。因此,小类数据的分类结果是不平衡数据分类关注的重点。然而,由于不平衡数据各类别之间样本个数不均衡,且可能同时伴有类重叠、维数较高、小类数据分布不均匀等问题,使得不平衡分类问题中小类样本的分类比较困难,正确识别能力也较差。本文针对两类不平衡数据开展研究,解决不平衡数据的分类问题,主要研究工作如下:(1)针对欠采样方法处理不平衡数据容易产生信息丢失的问题,提出基于安全样本筛选的混合采样方法。该方法将基于安全样本筛选的欠采样方法和过采样方法结合,对不平衡数据进行安全样本筛选,保留对确定分类边界有价值的重要样本,然后进行过采样处理使数据集基本平衡,并通过实验验证了该方法的有效性。(2)针对数据集维数较高且不平衡的特点,提出基于安全特征和安全样本双筛选的混合采样方法。该方法利用安全特征筛选和安全样本筛选的协同效应,通过循环迭代筛选,对维数较高的不平衡数据进行安全特征和安全样本双筛选,丢弃部分对确定分类边界没有价值的样本和特征,降低数据集的维度,然后进行过采样方法处理使数据集基本平衡,并通过实验证明了该方法是有效的。(3)针对入侵检测中的不平衡数据,使用本文提出的混合采样方法进行处理。入侵检测通过对用户网络行为数据进行分类,准确的检测出网络行为中的入侵行为,入侵行为数据具有明显的不平衡数据的特征。因此,将本文的方法应用于入侵检测问题的研究,对入侵检测数据进行采样处理,并通过实验进一步验证本文方法在实际应用中的可行性。通过处理不平衡数据,使得不平衡数据中小类数据更容易被正确分类,提高了不平衡数据的分类性能。本项研究对不平衡分类问题的研究具有重要的理论价值和现实意义。
其他文献
提出了一种利用电子钱包的公正支付系统:用户在银行有一个和身份相联系的个人帐号,在所持的电子钱包中有一个和身份没有联系的匿名帐号.用户在银行提款时,将钱从他的个人帐号转到
基于无源电感耦合式射频识别系统的工作原理,推导了安培匝数最小意义下的最优天线边长值,进而提出了一种读写器天线的系统的优化设计方法,实验结果表明,该方法简便、有效,可作为工
阐述了全麻术后、椎管内麻醉术后体位护理的研究进展,包括全麻腹部手术后、头面部手术后、胸部手术后的改良半卧位,硬膜外麻醉术后的自由卧位以及腰麻术后卧床休息与立即活动
近日我国财政部发布了修订版的企业会计准则22号、23号、24号以及37号,保持了与国际准则的趋同,贯彻落实了我国在金融市场去杠杆、严监管方面的决心。本文将从其修订背景、内
随着半导体工艺技术的迅猛发展,现场可编程逻辑器件FPGA的集成度迅速提高,已达到百万门量级,与此同时,FPGA中的逻辑资源也日益丰富,使得基于FPGA的片上系统设计成为可能。基
从管理到治理,国家治理是一条参与的道路,包含公民及社会组织的广泛参与、以社会制约权力、通过协商达到共识进而实现治理现代化这三个层面的内涵。与此同时,参与式预算从源
人民法院刑事审判方式改革的关键问题不是制度 ,而是审判人员庭审理念的转变。要树立打击犯罪和保护人权并重的庭审理念、控辩平等的庭审理念、法庭居中审判的理念和以庭审为
在Uber(优步)启蒙和引领下,共享经济浪潮已经席卷全球。在我国加快实施"互联网+"战略的大背景下,有必要去分析和研究Uber(优步)启蒙和引领全球共享经济发展的背景、发展状况,
"政策网络理论已经成为公共政策研究的一种重要范式"。本文以政策网络为主题,以浙江温岭参与式预算为案例,从政策网络和参与式预算的概念阐述和实证研究,寻找两者之间的内在
传递载体能够保护食品功能因子的生物活性,提高其溶解性、理化稳定性和生物利用率。食品级共价复合物传递载体能够赋予食品新的功能特性,对食品配料开发以及营养素强化具有重