论文部分内容阅读
近年来,随着经济迅速发展,我国商业银行的不良贷款率也随之上升,这直接影响了社会生活的各个方面,因此急需控制个人信用风险。对于传统的人工信用评审,耗时耗力,并且正确率较低。近些年,数据挖掘和机器学习的迅猛发展,通过对国内外学者关于商业银行信用评估研究的细致解读,得出大多数评估模型在变量选择方面具有较大的主观性,性能评估指标具有片面性,缺少对违约客户识别准确率的重视。基于此,构建高稳定性、高正确率的信用评估模型势在必行。本文根据现有研究,借助数据挖掘技术,将从特征变量选择和违约预测模型构建两方面入手,构建较为稳定的、对违约客户识别率较高的个人信用评估模型。本文以2016年CDA杯大赛数据为实证分析数据,采用Earth Mover’s Distance(EMD)方法进行特征变量的选择,在决策树模型的基础上考虑两类错误给商业银行造成损失的不同,构建了基于代价矩阵的决策树模型。通过与Logistic回归、随机森林、支持向量机和神经网络模型进行对比,基于F2-score指标,来验证本文所提出的模型在识别违约客户方面的有效性。在变量选择方面,与T检验和IV值比较,EMD变量选择方法具有最高的准确度和F2-score。与4个传统的违约模型相比,本文所提出的模型也具有最高的F2-score,其次是随机森林模型。在代价矩阵决策树模型中有9%的贷款违约者被错判,而随机森林模型中有23%的贷款违约者被错判。在几个模型中,代价矩阵决策树模型也具有最短的建模时间。代价矩阵决策树模型在确保正确率的基础上,确实能够降低第二类错判率(违约客户错判为正常),这对商业银行的个人信用评估体系的构建具有一定的借鉴意义和应用价值。