论文部分内容阅读
随着金融的全球化和我国金融体制的改革发展,信用卡业务作为中国个人金融服务市场中成长最快的产品线之一,成为了银行利润快速增长的突破口。然而,信用卡作为一种无抵押的信贷工具,其为银行带来高收益的背后也蕴藏着巨大的风险。因此,如何有效地利用信用卡用户产生的数据,利用数据挖掘方法寻找对控制风险有用的信息,便成了各个银行重点关注的问题之一。本文通过将银行卡用户的部分个人信息数据和连续六个月的信用卡消费与还款历史作为输入变量,把用户次月的违约情况作为输出变量来进行信用卡违约的研究。基于一个信用卡实际数据集,应用SVM、kNN、决策树、随机森林和LightGBM五种算法并分别结合样本数据建立了分类模型。通过混淆矩阵和三个分类准确度相关评价指标的对比后,发现从整体准确度来看,五种算法从优到劣排序如下:LightGBM,随机森林,决策树,SVM,kNN;而单从违约类别的准确度来看,则为:Light GBM,随机森林,决策树,kNN,SVM。在本文构建的所有模型中,LightGBM模型的分类效果最优。此外,本文还利用决策树规则提取方法挖掘出了数据集的几个关键特征,与客观事实的相符证明了模型对于银行防范与管理信用卡违约风险是有价值的。