基于混合采样的非平衡数据集分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:w370724
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集分类是机器学习和数据挖掘领域的一个重要研究方向。所谓非平衡数据集,在二分类问题中,即是在数据集中一类样本数量远远大于另一类的样本数量,我们把样本数量少的类称为正类,把样本数量多的类称为负类。由于类别数量上的不均衡性,导致传统的分类算法对负类样本预测准确率很高,可是在正类样本上识别率则相对较差,但是在实际应用中,往往正类有着十分重要的意义。针对上述问题,非平衡数据集的分类问题需要寻求新的方法加以解决。目前,非平衡数据集分类问题的解决方法主要分为两种:一种是算法层面的算法改进,其中包括代价敏感学习、集成学习、单类学习和特征选择学习等;一种是数据层面的数据集重构。SMOTE算法则是数据集重构中的经典过采样算法。但是SMOTE算法存在盲目采样问题,以噪声点为基础采样可能导致引入新的噪声,并且也存在不合理采样使得样本空间重叠反而导致决策域变小的问题。鉴于此,本文提出一种基于混合采样策略的非平衡数据集学习算法SVM-IMSA,并对以下关键问题进行了研究和改进:①针对SMOTE算法采样中样本噪声的干扰问题,提出一种基于错分的混合采样算法,根据空间近邻关系,把识别为噪声点的样本直接删除。②针对SMOTE算法中存在的盲目采样和不合理的采样会使得样本空间重叠问题,是在以错分驱动为基础,根据空间近邻关系把错分样本分为安全点、噪声点和危险点,自适应的对安全点和危险点采取相应的过采样和欠采样方法,以解决支持向量机在非平衡数据集上的决策面偏移问题。③针对SMOTE算法随机的线性插值会造成稀疏区域仍然稀疏,密集区域仍然密集,无法有效的对更具意义的样本区域有针对性的采样问题,是在错分基础上进行迭代,逐步将采样区域集中到“难以判决”的样本周围,对识别为安全的样本加大采样倍率,以使得分类器更加关注这些难以分类的样本。④改进了传统的随机欠采样策略,提出一种边界区域切割算法,通过分析危险点周围负类样本的密度和密度可达性,对负类样本有针对性的进行欠采样处理,避免了传统算法对某些重要负类样本的误清理。
其他文献
一九二七年冬至一九二八年夏,革命处于低潮。上海党的活动转入地下,同志们都分散居住,隐蔽起来。我和林平海(后来在温州参加农村暴动牺牲)等同志都住在赫德路正明里。我在毛
食用菌具有很高的营养价值和药用价值,是佐膳保健佳品。近年来,随着人们生活水平和保健意识的提高,对食用菌数量和品种的需求也不断增加,国内外市场需求急增,食用菌生产得到
通过分析装备应急采购的特点和规律,梳理装备应急采购存在的矛盾问题,提出了相应的对策建议。
自从《三国》、《论语》、《庄子》走进央视“百家讲坛”,《品三国》、《心得》、《心得》就成了畅销书,名居各种排行榜前列。于丹、易中天等学者也随之走红,掀起阵阵波澜,欢呼拥趸者众,批评泼冷水者亦不少。我们作为一个普通之人,没必要去赶其中任一个潮头,他们是大学教师,我辈是中学教师,也难辨其中对错。但于丹、易中天却于我等从业者许多有益的启发。  《论语》、《庄子》等先秦经典并不是于丹的主攻专业,品《三国》
针对高校仪器设备维护经费预算决策难的问题,提出了一种基于改进灰色GM(1,1)模型的高校仪器设备维护费用预测方法。首先分析灰色GM(1,1)模型的数据预测过程,构建基于初始数列和背