论文部分内容阅读
互联网的快速发展带动了线上经济的活跃,第三方支付的不断更新,各种信贷产品层出不穷,信用问题越发突出.为了我国信贷经济的健康发展,2018年底至2019年初,中国人民银行的二代征信系统进行了试运行.新的征信系统增加了非银行机构的业务,并扩大了数据收集的渠道,目的是运用先进的技术提供更高效、更精准的服务,但该系统尚未成熟,仍有很大的完善空间,尤其是在数据挖掘等技术层面.本文旨在通过对比分析与实证分析相结合,对现有的机器学习算法做进一步的研究,并采用集成策略优化模型,希望能够提高对个人信用违约的识别与规避.集成策略的主要思想是在优化后的基模型的基础上,对这些基模型进行优化整合从而构建性能较稳定、精确度较高的模型.本文模型的构建思路:基于充分的数据清洗,对模型进行贝叶斯超参数优化,根据模型的精度、预测能力和分类能力等方面,对不同类型的模型进行比较并选择最优模型;在此基础上对不同类型的模型进行三种进一步的集成,即Stacking、Blending、Voting集成;最后,从不同的模型评估角度(精确度、分类能力、泛化能力等)分析集成模型的鲁棒性.对台湾信贷数据进行的实证分析,即对比了逻辑回归、基于伯努利的贝叶斯模型、SVM(支持向量机)、随机森林、极端树模型、Ada Boost、GBDT、XGBoost,并在此基础上对这些模型采用了Stacking、Voting、Blending三种策略构建高效的集成模型,结果表明:1、串行集成的方法(GBDT)与异质集成策略(Stacking、Blending、Voting)达到的效果相近;2、相对复杂的Stacking模型预测能力却没有相对简单的GBDT模型优,说明模型的复杂程度与模型的精度不成正比;3、模型结构相对简单的Blending、Voting的集成策略最后得到的模型精度达到81%,模型的AUC值达到0.78以上,模型的分类能力指标KS值、Kappa值分别为0.315、0.373,显著优于其他集成模型的结果.