基于随机森林的个人信用评价指标分析

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zhang504752895
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,信用消费作为一种新型生活方式逐渐走进人们的生活之中。有数据显示,越来越多的居民已经将理财方式由传统的储蓄转变为贷款消费,而我国现阶段正处于现金占据主导地位,欺诈现象屡见不鲜的阶段,判断客户是否可靠、是否会发生信用欺诈现象,以及如何选取最优分析模型是一件非常棘手且十分重要的工作。本文研究的主要目的是针对商业银行等金融机构在向客户进行贷款时,对影响信用评价的诸多指标进行分析,建立相应的指标体系,并在对所建立的指标体系建立模型进行分类,最终希望判断出何种模型对于评价该分类更为精确,哪种模型更能普遍更适用于日常生活之中的结论。本文综合分析信贷机构主要分类模型和随机森林的优缺点的基础上,选取了基于不平衡数据下的随机森林组合算法用于个人信用评估分析,最后结合针对某商业银行信用卡持卡人的真实信用卡交易数据进行仿真模拟试验,得出了对商业银行信用评估有价值的政策建议。首先,由于常见的信用数据指标数据量较大、纷繁杂芜、维数多,因此,在正式进行数据建模之前,我们对原始数据进行预处理,并使用主成分分析,以达到简化随机森林输入、降低维数、提取出主要信息的目的,并以此确定合理的个人信用评估指标体系。其次,针对决策树作为一种单一分类器,在处理实际问题中往往具有很大的局限性这一问题,本文选取了组合分类器一随机森林。并且由于在信用评估的真实案例中,欺诈类客户往往是极少数,所以如何处理类似的不平衡数据问题也是我们需要面临的问题,因此本文先使用欠采样方法将得到的训练样本多数类进行抽样抽取多个样本子集,与少数类样本结合起来,构成新的训练样本集,结合随机森林算法,本文提出了一种基于欠采样与随机森林相结合的新型算法。最后,对欧洲某银行的信用数据进行仿真实验,并在接下来的实证分析中对比在不同抽样比例(分别为1、2、3)下的不同分类器(SVM、Logistic、RF)下的分类性能,综合对比得出相比于原始的随机森林,对数据进行平衡化处理的随机森林的分类性能(用Recall、F-mean、AUC指标衡量)较好,并且优于其他模型。研究结果表明:影响信用评估的指标较多,且数据存在不平衡现象,因此,在对客户进行信用评价指标分析的模型构建过程中,当数据极度不平衡时,对数据进行平衡化处理能够有效提升模型分类性能;在构建模型的过程中,综合对比分析多种模型,得出对数据处理后的组合模型随机森林要优于本文构建的其他几种模型的结论。因此该模型可以广泛的应用于其他领域,具有较高的精确性,以及较好的适用性。
其他文献
发票管理是企业管理的重要方面。发票作为记录企业经济业务发生最基本的原始凭证,对保证会计信息的真实、完整,加强企业财务管理具有十分重要的作用。本文论述了发票风险管控
目的:探讨雷公藤多苷与泼尼松联合治疗特发性膜性肾病的疗效,为临床提供参考。方法:选择我院收治的50例特发性膜性肾病患者,将其分为治疗组及对照组,各25例。对照组及治疗组
现代社会需要创新型人才,而主体性教育的最高目标就是学生创造性的发展。所以,对高中生主体性的培养已成为现代教育的主要任务之一。笔者根据自己的实习经历、问卷调查以及对
在清澜大桥钢-混结合梁施工过程中,通过不断总结和探索,提出了一系列相应技术措施,较好的解决了钢-混结合梁施工中常见的一些问题,保证了工程质量,方便了现场施工。并总结了
来自中国民用航空局(CivilAviationAdministrationofChina,简称“民航局”)的统计,我国民航航班每年有20%左右都不能按照正常时刻起降,延误率接近五分之一。航班无法正常起飞
公务员激励机制是我国政府行政管理系统中的一项重要职能,能创设满足公务员的招考、录用、薪资福利、晋升等各方面的需求,进一步激发公务员这个群体对工作的能动性和创设性,
唐墓壁画数量可观,真实可靠,代表了当时的绘画水平,其直观反映了唐代社会的诸多方面。永泰公主墓室壁画是初唐时期文化精神与形式的完美结合,是在唐代文化的土壤中,自觉运用
企业高管是指企业的决策层,即参与制定企业发展规划,行动等一切与企业经营活动相关的策划者。他们在管理层担任重要的职务,负责企业经营管理,掌握企业的重要信息。主要包括经
目的探讨用VITEK 2 Compat鉴定仪和VITEKMS质谱仪直接对血培养阳性标本细菌鉴定的可行性。方法对临床血培养阳性标本分离的259株细菌进行试验,用VITEK 2 Compact鉴定仪和VITE