论文部分内容阅读
随着互联网金融产业的不断发展,用户依托互联网平台进行个人贷款的人数在不断增加。由于互联网线上平台天然的不透明性,且国内对于个人征信信息系统的构建不够完善,有效预测用户贷款违约概率成为信贷风控体系构建的核心,从用户贷前日常行为数据中挖掘更多有效信息,提取更多复杂特征变得更为重要。用户原始特征具有稀疏、高维特性,很多字段为分类字段,每个字段与其他字段之间的相关性不明显,人工提取复杂组合特征的工作量大且较为低效,且无法泛化出未曾在训练中出现的组合特征。使用基于深度神经网络和因子分解机构建的DeepFM模型能学习到原始特征数据的复杂相关性,同时学习低阶和高阶组合特征,将复杂特征与用户还款表现的结果有效关联起来。本文首先在公开的Lending Club用户贷款数据集上,构建DeepFM模型验证组合特征学习的增益效果,与已经成功使用在信贷风控模型中的逻辑回归模型和XGBoost模型对比发现,DeepFM模型在AUC评价指标上的表现分别有9%和2%的增益,证明该模型的优势体现在自动学习低阶和高阶组合特征,适用于有多分类字段的数据集。其次,本文对基础DeepFM模型进行改进。由于传统的因子分解机(Factorization Machines,FM)缺乏区别组合特征重要性的能力,为了更有效的学习组合特征权重,在基础模型的基础上引入注意力机制。再增加XGBoost模型作为自动特征选择工具,筛选设定特征重要性阈值以上的特征,输入DeepFM模型进行训练。经过测试对比发现,改进后的模型在原有模型的基础上,在数据集上测试的表现指标有所提升,在特征经过筛选后,减少了输入特征维度,模型训练效率也得到提升。最后,本文将改进后的信贷风控模型基于真实用户贷款数据进行实现,对数据集规模以及数据集的信度和效度进行说明,验证改进模型的应用效果。设计实现了风控模型上线测试系统,系统可完成特征选择、模型训练、模型上线、模型测试功能,将特征选择方法和构建的信贷风控模型应用到实际系统实现中。图41幅,表24个,参考文献33篇。