面向失衡数据集的集成学习分类方法及其应用研究

被引量 : 0次 | 上传用户:charles8025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
失衡数据集是指在某个数据集中存在着某一类样本的数量占据了总体样本的大部分,这类数据样本被称为负例样本,而只占总体样本的小部分的样本则被称为正例样本。失衡数据集不仅在经济学、生物学,医学等诸多领域中有着广泛的应用,而且也是数据挖掘和机器学习领域中的研究热点。由于传统的数据挖掘和机器学习分类方法总是要求数据集中类分布情况是平衡的,追求的是整体分类准确率,这意味着对于失衡数据集中数据样本进行分类时会导致分类器的准确率下降甚至失效。因此,如何能够提高分类器处理失衡数据集整体样本的正确分类和数据集中正例样本的分类精度成为数据挖掘领域中的一个研究重点。本文首先介绍了失衡数据集的概念、影响失衡数据集分类准确性的因素、处理失衡数据集分类问题的分类方法、分类器性能的评价指标以及集成学习的理论和集成学习的基本算法,对常用的集成学习模型bagging进行了深入了解。本文提出了基于knn动态阈值样本剪枝的策略来解决失衡数据集中大量的负例样本信息对正例样本信息造成的数据淹没现象以及正负例样本的数据混叠现象对分类器模型造成的问题;针对失衡数据集中属性数据值的缺失问题,提出了基于knn方法来解决数据集中缺失的属性数据缺失信息的填充。在实验实现与分析部分使用了具有代表性的失衡数据集的数据形态验证了提出方法的有效性和可行性。最后,在信用卡欺诈检测的领域上使用真实的数据结合随机森林和bagging集成学习方法,从解决失衡数据集的数据方面和算法方面提出了解决方案,集成到应用系统中并取得了较好的分类效果。
其他文献
紫砂茶具作为茶文化的重要组成部分,研究紫砂茶具的设计在当代社会传承与弘扬茶文化有非常重要的意义。紫砂茶具因其材质的独特性成为品茶的最佳器具,在历史的发展过程中流传至
在计划经济年代,由于企业主体缺乏追求利益的欲望,无合理避税的动力,而国民纳税意识淡薄,税务人员素质低下,征纳双方对各自权利和义务认识模糊,把合理避税与逃税、偷税混为一
市场弱势有效是指实证检验证明未来收益是无法从历史收益得到预测。有效市场假说是鞅假定,检验某一时间序列是否满足鞅过程的方法是测试其序列相关性。本文以上证综指代表中
<正>1675年,英国威廉医生[1]介绍了糖尿病患者尿多等特征,其命名的糖尿病外文名称(Diabetes Mel-litus,DM)沿用至今。我国古代将糖尿病称为"消渴症"。1922年1月多伦多总医院
依据相关法律条款,阐述了城市公共服务设施专项规划的地位、作用,编制内容及深度,结合临汾市中小学教育设施布局规划的编制工作,探讨了编制这类专项规划的具体方法,以供实际
在我国,每一次基础教育课程改革,总能引发教育教学的调整和革新。大到全民的教育理念和思潮,小到教师在课堂上的一举一动,教育领域的新面貌昭示着2005年全面启动的第八次基础教育
当前,我国不少代工企业通过及时把握战略发展机遇,凭借低成本和其他要素禀赋优势已在全球价值链中谋取了一席之地。然而,企业要想在竞争日益激烈的市场中站稳脚跟并非易事,关
目的探讨哈萨克族T2DM患者IR与血脂、血尿酸(SUA)及BMI的关系。方法将100例哈萨克族T2DM患者按胰岛素抵抗指数(HOMA-IR)分为IR组和非IR(N-IR)组,另选60名哈萨克族健康者为对
在建党与大革命时期,陈独秀对国共关系的认识经历了曲折多变的过程,具体表现为,从拒绝与其他党派合作到与国民党结成“民主的联合战线”,从反对“党内合作”到有条件加入国民党,从