论文部分内容阅读
自进入“互联网+”时代后,信用消费作为一种新型的生活方式走进人类的生活当中。根据相关数据表明,愈来愈多的居民开始用贷款来消费。而当前阶段我国正处在以现金为主导地位,违约、欺诈现象层出不穷的阶段。判断借款人是否可靠、是否会发生违约现象,以及如何选择最优分类器模型是一件非常重要又棘手的工作。本文的研究目的是当客户向P2P平台等金融机构进行贷款时,对影响个人信用的指标进行分析,建立个人信用风险指标体系,并根据相应的指标体系进行建模从而对借款人的所属类别进行判别,最终希望可以分析得出哪种分类器模型运用在个人信用风险评估之上更具备高效性和适用性。本文将个人信用风险评估作为研究对象,首先对其进行文献综述,借鉴国内外的个人信用评估指标体系建立本文的指标体系。其次,详细阐述了随机森林和不平衡数据集的相关理论,归纳总结了随机森林的优点、应用范围以及不平衡数据集的成因、解决方案,为下文模型的构建和不平衡数据集的处理做好理论知识的铺垫,并提出使用F值、G值、AUC值和精度变化率来衡量基于不平衡数据集的模型预测准确率和稳定性的观点;然后基于美国最大的P2P公司——Lending Club平台2018年第四季度的真实数据集,对该数据集进行清洗、转换、筛选特征变量以及划分数据集后,建立基于不平衡数据集的随机森林模型。与此同时,引入SMOTE+ENN混合抽样算法对原始不平衡数据集进行改进,建立基于改进数据集的随机森林模型。将两者结果对比分析表明,通过对原始数据集的混合抽样平衡处理后,随机森林模型的预测准确率和稳定性均有所提高。最后综合对比分析随机森林模型、Logistic回归模型和支持向量机模型运用于平衡数据集上的个人风险评估结果,通过多次实证分析显示,随机森林模型的预测准确率明显高于另外两种模型,稳定性介于另外两种模型之间。用准确率排名(通过F值、G值、AUC值来衡量)和稳定性排名(通过精度变化率来衡量)等权重加和对其进行综合评价发现随机森林的分类性能要优于另外两种模型。研究结果表明:影响个人信用风险评估的指标众多,且数据集存在不平衡的问题。因此在对客户的个人信用风险进行评估时,对数据集平衡化处理可以明显提升分类器模型的预测准确率和稳健性;同时在进行分类器模型的选择时,综合对比分析了随机森林模型、Logisic回归模型和支持向量机模型,得出基于平衡化数据集,随机森林模型的分类性能要优于另外两种模型的结论。由此可以充分证明将随机森林模型运用于个人信用风险评估中具备高效性和适用性。