基于深度神经网络的信贷风控模型构建与应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:qipiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融产业的不断发展,用户依托互联网平台进行个人贷款的人数在不断增加。由于互联网线上平台天然的不透明性,且国内对于个人征信信息系统的构建不够完善,有效预测用户贷款违约概率成为信贷风控体系构建的核心,从用户贷前日常行为数据中挖掘更多有效信息,提取更多复杂特征变得更为重要。用户原始特征具有稀疏、高维特性,很多字段为分类字段,每个字段与其他字段之间的相关性不明显,人工提取复杂组合特征的工作量大且较为低效,且无法泛化出未曾在训练中出现的组合特征。使用基于深度神经网络和因子分解机构建的DeepFM模型能学习到原始特征数据的复杂相关性,同时学习低阶和高阶组合特征,将复杂特征与用户还款表现的结果有效关联起来。本文首先在公开的Lending Club用户贷款数据集上,构建DeepFM模型验证组合特征学习的增益效果,与已经成功使用在信贷风控模型中的逻辑回归模型和XGBoost模型对比发现,DeepFM模型在AUC评价指标上的表现分别有9%和2%的增益,证明该模型的优势体现在自动学习低阶和高阶组合特征,适用于有多分类字段的数据集。其次,本文对基础DeepFM模型进行改进。由于传统的因子分解机(Factorization Machines,FM)缺乏区别组合特征重要性的能力,为了更有效的学习组合特征权重,在基础模型的基础上引入注意力机制。再增加XGBoost模型作为自动特征选择工具,筛选设定特征重要性阈值以上的特征,输入DeepFM模型进行训练。经过测试对比发现,改进后的模型在原有模型的基础上,在数据集上测试的表现指标有所提升,在特征经过筛选后,减少了输入特征维度,模型训练效率也得到提升。最后,本文将改进后的信贷风控模型基于真实用户贷款数据进行实现,对数据集规模以及数据集的信度和效度进行说明,验证改进模型的应用效果。设计实现了风控模型上线测试系统,系统可完成特征选择、模型训练、模型上线、模型测试功能,将特征选择方法和构建的信贷风控模型应用到实际系统实现中。图41幅,表24个,参考文献33篇。
其他文献
在空调机组、热泵、冰箱等制冷设备中,由于制冷量较大,干式蒸发器的数量通常不止一个,这些蒸发器往往是由并联盘管组成。如何让每一个蒸发器内制冷剂的流量均匀,是系统设计的
数据挖掘技术是一种新的信息处理技术,其目的是从海量数据中抽取潜在的、有价值的数据规律或数据模型。在讨论目前高校学生管理中存在问题的基础上,简单介绍了数据挖掘技术。并
苏东坡《志林》有“措大吃饭”一文,讲两个穷酸的小公务员坐在一起,各自谈起将来的志向,一个说:“我平生不足的就是吃饭和睡觉,以后得志了,就要吃饱了就睡,睡醒了再吃。”另一个说:“我的志向和你不一样,当吃了又吃,吃了再吃,为了吃饭哪还顾得上去睡觉!”  现代人一成小官,就专门谋划着吃饭:一等官,送着吃;二等官,寻着吃;三等官,要着吃。哪怕是小小村官,也是常在酒楼饭店,没钱了卖了土地也去吃。除了吃饭,无
研究目的:MOOC作为一种新兴的大规模的公开的在线课程,是对高等教育理念和方法变革起促进作用的全新的教学模式。MOOC的出现促使运动生理学的教学模式得以深思,它为高校带来