数据挖掘中类不平衡数据集分类模型研究

被引量 : 3次 | 上传用户:lwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中的很多数据是不平衡分布的,有的类别所占总样本比例很少,而有的类别占总样本比例很大。其中的少数类样本往往是人们研究的重点,它们对我们的影响相对更大,人们更加注重的是少数类样本及其被错误归类所带来的损失。然而在类不平衡数据集上直接使用传统分类算法的效果并不理想,特别是对于少数类的分类准确率,效果更差。因此,类不平衡数据集分类问题的研究具有很重要的现实意义。本文提出了一种基于改进SMOTE算法和随机森林分类算法相结合的分类模型,在数据层面使用提出的改进算法NSMOTE算法处理类不平衡数据集,平衡数据集。在算法层面选择组合决策树的算法随机森林来对处理过后的数据集进行分类。与传统的分类器相比,能够较好地应用在类不平衡数据集的分类中。我国是一个资源型大国,“多煤,缺油,少气”是对我国资源状况的概述。显而易见,煤炭资源对我国的经济发展非常重要,煤矿的安全生产更是关乎国计民生的大事。应用先进的数据挖掘技术于煤矿危险地带的分类预测中,可以尽可能的减小突发灾难的发生机会,减少人民的生命财产损失。由于煤矿中井下工作面处于危险状况是小概率事件,绝大多数情况下井下工作面还是安全的,其研究属于类不平衡数据分类问题。将本文提出的类不平衡数据集分类模型应用于煤矿数据的分析中,可以为煤矿生产提供合理建议,可以在一定程度上避免灾害的发生。
其他文献
使用二分法配制蔗糖洗洁精、胶水甘油洗洁精,设计了仅用烧杯、酒精灯、木棒等简单仪器就可以产生常见气体“肥皂泡”,并对其进行检验包括钠与水反应产生氢气的检验、镁在二氧化
<正>国际金融危机给我们带来的一个重要启示就是:要处理好实体经济和虚拟经济的关系,以虚拟经济的健康发展促进实体经济的发展。经历了应对金融危机冲击的努力和思考,伴随着
<正>苏联教育学家苏霍姆林斯基强调:"让学生变聪明的方法不是补课,不是增加作业量,而是阅读,阅读,再阅读。"怎样才能让学生真正爱上课外阅读,享受阅读的愉悦呢?一、从"趣"入
为了高效评估防撞梁系统变化对整车碰撞性能的影响,基于整车正向开发流程,创新定义了防撞梁系统在整车碰撞中的性能要求,创建了防撞梁系统变化对汽车整车碰撞性能影响的等效
高技术企业的寿命周期与传统企业的寿命周期一样,对于一个完整的寿命周期而言,也划分为创建期、试产期、成长期、成熟期、衰退期、衰亡期六个阶段。产品寿命周期与企业寿命周
轮胎是汽车的重要部件。它不但支撑着这个车辆的全部重量,更是向车身传递牵引力与制动力。轮胎的选取不但影响了车辆的乘坐舒适性能,同时也影响着车身多个零部件的寿命。轮胎的
分析2000-2013年中国与欧盟医药商品贸易发展特征,我们发现,中国与欧盟间医药商品贸易长期存在着严重的贸易逆差。在医药商品贸易结构方面,中国对欧盟的医药商品出口主要以低
根据世界能源理事会预计,1990~2020年世界能源需求将增加70%,到2100年将增加5倍。目前占全球能源消费总量35%的发展中国家,到2020年将消费全球能源的50%,到2100年可能达到70%,世界
图式理论起源于哲学,经过在心理学领域的发展,又被应用于现代认知语言学。近30年来,图式理论在阅读理解方面的研究应用日趋成熟,并开始影响翻译研究。本文将尝试分析翻译过程
针对传统基于用户的博文内容和共同好友数在计算微博用户的相似度时存在潜在误差过大的问题、而基于用户多源背景信息的相似度计算模型有计算复杂度高且忽略了用户的兴趣等问