论文部分内容阅读
近年来,信用卡业务发展迅速,已成为我国银行业的一个重要利润增长点。无需抵押是信用卡最大的特点,给信用卡客户带来极大的方便,我国信用卡业务起步较晚,且在发展过程中存在制度不完善、流程不规范等问题。因此,在信用卡给银行带来高收益的同时,也带来一定的金融风险。如何有效利用信用卡客户的历史数据来规避风险,是国内外许多学者所关心的课题,也是各银行重点关注的工作。在本文的实验中运用多种机器学习算法,从而根据实际数据建立了可以对信用卡违约客户进行有效识别的分类模型,进一步提前发现办理信用卡业务客户的潜在违约风险,降低信用卡违约给银行带来的损失。本文根据已有知识和实际情况对我国信用卡业务进行基本的分析,介绍了文章实验中选取的机器学习算法的基本理论。然后,以我国台湾地区的信用卡业务数据集为例,对数据进行相应的数据处理。此后,借助Python编程,对处理完成以后的数据集分别建立决策树、支持向量机、随机森林、Xgboost和LightGBM等信用卡违约风险识别的单个数据挖据模型,并且选择模型的整体分类正确率、违约类召回率、1得分和AUC等指标作为评估模型分类效果的标准。最后,选择随机森林、Xgboost和LightGBM三种机器学习算法作为Stacking集成学习中的初级学习器,而第二阶段中的次级学习器则选择逻辑回归。同时基于初级学习器的违约类分类错误率,对初级学习器进行加权,建立加权Stacking集成学习的违约识别组合模型。本文的最终研究结果表明,基于信用卡客户的历史数据,釆用加权Stacking集成学习策略以及逻辑回归作为次级学习器,可以有效地预测信用卡违约客户,对比文章中的单一分类模型都具有更准确的分类效果。通过对测试集的预测分类结果来看,该模型可以识别出更多的违约客户。最终实验结果表明基于加权Stacking集成学习的分类模型在一定程度上提高违约类的召回率,得到的分类模型综合性能也是最优的。因此,本文的研究结果可以在管理信用卡层面给予银行一定程度上的帮助,对信用卡客户进行分类预测,可以识别申请客户的潜在违约风险,加强银行对信用卡的管理和降低信用卡的违约率。