论文部分内容阅读
随着居民收入水平的增加,居民消费水平也在不断提高,个人贷款逐渐被人们所接受。各类城市商业银行、股份银行等中小商业银行纷纷涉足个人贷款业务,展开了激烈的竞争。个人贷款业务在不断发展的同时,风险逐渐增加,2018年银行个人贷款不良贷款率为1.86%,处于历史较高水平。随着大数据、数据挖掘技术的发展,目前这些技术已经较为成功的应用在不同领域。互联网金融中逐渐将大数据、数据挖掘技术用于风险控制,并取得了较好的成果。而目前中小商业银行主要依靠传统的基于专家经验的风控规则来对个人贷款的风险进行管理,这种方法较难适应形势的发展,具有一定的瓶颈。
本文对银行个人贷款违约风险的相关情况进行研究,首先分析了当前个人贷款的发展现状以及违约情况,其次对当前商业银行个人贷款的流程、个人贷款风险控制进行了分析,诊断了其中存在的问题。为了提高对个人贷款违约风险的预测率,本文基于大数据客户画像构建了违约指标体系,并基于Autoencoder的BP神经网络,采用遗传算法对神经网络进行优化。通过对A银行的数据进行实证,并对比BP神经网络与随机森林模型验证了模型的效果,同时对大数据画像指标的有效性进行了分析。
本文的研究结论如下:(1)目前商业银行个人贷款逐渐增加线上贷款的业务,目前银行对客户的数据整合不足,采用的模型较为落后,无法有效支撑业务,控制风险;(2)本文在大数据画像的基础上,为个人贷款风险模型设计了30个指标,涵盖了客户的基本情况、资产维度、信贷维度、投资维度及消费维度等较为全面的信息,这些指标整合了银行内部的主要数据以及互联网大数据,优化了传统银行的个人贷款违约风险评判指标;(3)本文构建了基于Autoencoder的BP神经网络模型,通过Autoencoder对输入特征进行处理,并使用编码后的输出作为BP神经网络的输入进行学习,并使用遗传算法进行优化,本文使用R语言进模型构建。其中Autoencoder使用R语言autoencoder函数;BP神经网络使用nnet函数,遗传算法使用mcga中的mcga函数;(4)本文对A银行的数据进行了实证分析,在测试样本集合上,基于Autoencoder的BP神经网络的正样本准确率为96.3%,负样本准确率为94.6%,综合准确率为95.7%。单独使用BP神经网络的正样本准确率为83.6%,负样本准确率为84%,综合准确率为83.7%。随机森林模型的正样本准确率为87%,负样本准确率为87.3%,综合准确率为87.1%。通过对比分析可以看到,基于Autoencoder的BP神经网络的性能最好,对比随机森林提高了13%,对比BP神经网络提高了14%;(5)通过对变量的重要性进行分析,可以看到排在前十的变量主要是第三方贷款水平、逾期次数、第三方信用评分、收入水平标签、人行征信、电商消费水平、运营商消费水平、日均净资产、授信额度、房产估值,其中大部分是通过整合第三方渠道得到的标签,以及通过整合行内所有数据得到指标。而传统用于信用评价的年龄、学历等指标的重要性较低,说明了大数据整合的画像指标对判断个人贷款违约具有重要的价值。
本文的研究对于提升大数据、数据挖掘等技术在商业银行中个人贷款违约风险控制中的应用具有一定的价值。
本文对银行个人贷款违约风险的相关情况进行研究,首先分析了当前个人贷款的发展现状以及违约情况,其次对当前商业银行个人贷款的流程、个人贷款风险控制进行了分析,诊断了其中存在的问题。为了提高对个人贷款违约风险的预测率,本文基于大数据客户画像构建了违约指标体系,并基于Autoencoder的BP神经网络,采用遗传算法对神经网络进行优化。通过对A银行的数据进行实证,并对比BP神经网络与随机森林模型验证了模型的效果,同时对大数据画像指标的有效性进行了分析。
本文的研究结论如下:(1)目前商业银行个人贷款逐渐增加线上贷款的业务,目前银行对客户的数据整合不足,采用的模型较为落后,无法有效支撑业务,控制风险;(2)本文在大数据画像的基础上,为个人贷款风险模型设计了30个指标,涵盖了客户的基本情况、资产维度、信贷维度、投资维度及消费维度等较为全面的信息,这些指标整合了银行内部的主要数据以及互联网大数据,优化了传统银行的个人贷款违约风险评判指标;(3)本文构建了基于Autoencoder的BP神经网络模型,通过Autoencoder对输入特征进行处理,并使用编码后的输出作为BP神经网络的输入进行学习,并使用遗传算法进行优化,本文使用R语言进模型构建。其中Autoencoder使用R语言autoencoder函数;BP神经网络使用nnet函数,遗传算法使用mcga中的mcga函数;(4)本文对A银行的数据进行了实证分析,在测试样本集合上,基于Autoencoder的BP神经网络的正样本准确率为96.3%,负样本准确率为94.6%,综合准确率为95.7%。单独使用BP神经网络的正样本准确率为83.6%,负样本准确率为84%,综合准确率为83.7%。随机森林模型的正样本准确率为87%,负样本准确率为87.3%,综合准确率为87.1%。通过对比分析可以看到,基于Autoencoder的BP神经网络的性能最好,对比随机森林提高了13%,对比BP神经网络提高了14%;(5)通过对变量的重要性进行分析,可以看到排在前十的变量主要是第三方贷款水平、逾期次数、第三方信用评分、收入水平标签、人行征信、电商消费水平、运营商消费水平、日均净资产、授信额度、房产估值,其中大部分是通过整合第三方渠道得到的标签,以及通过整合行内所有数据得到指标。而传统用于信用评价的年龄、学历等指标的重要性较低,说明了大数据整合的画像指标对判断个人贷款违约具有重要的价值。
本文的研究对于提升大数据、数据挖掘等技术在商业银行中个人贷款违约风险控制中的应用具有一定的价值。