论文部分内容阅读
当今社会,信用消费作为一种新型生活方式逐渐走进人们的生活之中。有数据显示,越来越多的居民已经将理财方式由传统的储蓄转变为贷款消费,而我国现阶段正处于现金占据主导地位,欺诈现象屡见不鲜的阶段,判断客户是否可靠、是否会发生信用欺诈现象,以及如何选取最优分析模型是一件非常棘手且十分重要的工作。本文研究的主要目的是针对商业银行等金融机构在向客户进行贷款时,对影响信用评价的诸多指标进行分析,建立相应的指标体系,并在对所建立的指标体系建立模型进行分类,最终希望判断出何种模型对于评价该分类更为精确,哪种模型更能普遍更适用于日常生活之中的结论。本文综合分析信贷机构主要分类模型和随机森林的优缺点的基础上,选取了基于不平衡数据下的随机森林组合算法用于个人信用评估分析,最后结合针对某商业银行信用卡持卡人的真实信用卡交易数据进行仿真模拟试验,得出了对商业银行信用评估有价值的政策建议。首先,由于常见的信用数据指标数据量较大、纷繁杂芜、维数多,因此,在正式进行数据建模之前,我们对原始数据进行预处理,并使用主成分分析,以达到简化随机森林输入、降低维数、提取出主要信息的目的,并以此确定合理的个人信用评估指标体系。其次,针对决策树作为一种单一分类器,在处理实际问题中往往具有很大的局限性这一问题,本文选取了组合分类器一随机森林。并且由于在信用评估的真实案例中,欺诈类客户往往是极少数,所以如何处理类似的不平衡数据问题也是我们需要面临的问题,因此本文先使用欠采样方法将得到的训练样本多数类进行抽样抽取多个样本子集,与少数类样本结合起来,构成新的训练样本集,结合随机森林算法,本文提出了一种基于欠采样与随机森林相结合的新型算法。最后,对欧洲某银行的信用数据进行仿真实验,并在接下来的实证分析中对比在不同抽样比例(分别为1、2、3)下的不同分类器(SVM、Logistic、RF)下的分类性能,综合对比得出相比于原始的随机森林,对数据进行平衡化处理的随机森林的分类性能(用Recall、F-mean、AUC指标衡量)较好,并且优于其他模型。研究结果表明:影响信用评估的指标较多,且数据存在不平衡现象,因此,在对客户进行信用评价指标分析的模型构建过程中,当数据极度不平衡时,对数据进行平衡化处理能够有效提升模型分类性能;在构建模型的过程中,综合对比分析多种模型,得出对数据处理后的组合模型随机森林要优于本文构建的其他几种模型的结论。因此该模型可以广泛的应用于其他领域,具有较高的精确性,以及较好的适用性。