基于数据挖掘技术的P2P借贷违约风险识别模型研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:yeah88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网经济日益扩张的今天,为满足多样化的投资和借贷需求,互联网金融产业下的P2P借贷业务快速扩张。但近年来,P2P借贷业务发展遇到了一系列问题,尤其是较高的违约率带来的坏账问题,导致P2P平台和投资者遭受损失。建立有效的P2P借贷违约风险识别模型,对于平台的风险控制和行业的长远发展,有着重要的意义。本文旨在运用当前较为主流的数据挖掘方法,寻找并构建能够有效识别P2P借贷违约风险的模型,从而实现P2P平台中潜在违约情况的及时预测,有效降低P2P平台因高违约率而带来的损失,进而提高生存能力。本文首先对P2P借贷业务进行了基本分析,阐述了所采用的几类数据挖掘模型的基本思想和特点。然后,以“拍拍贷”公开的借款人数据集为例进行数据采集,对所采集得到的P2P借贷记录数据进行数据清洗和特征工程。此后,对清洗以后的数据集分别建立逻辑回归(Logistic)、神经网络、支持向量机(SVM)、C50决策树、随机森林、GBDT迭代树和XGBoost等P2P违约风险识别的数据挖据模型,并且选择准确度、精确度、召回度和F1统计值等评估指标来对各个模型的预测效果进行评估和对比。最后,分别选择其中表现效果较佳的XGBoost模型和逻辑回归模型作为基模型和第二阶段的模型,采用Stacking集成学习的方法,建立最终的违约识别组合模型。本文的最终研究结果表明,运用开源工具R语言,基于包含P2P借款用户的基本信息、网络行为、教育信息、社交网络和第三方数据等多维度数据,采用当前流行的数据挖据模型XGBoost建立的Stacking模型组合在对P2P借贷违约风险的识别中具有比单一预测模型更好的预测效果。在测试数据的表现情况来看,该模型不仅能够识别出相当比例的违约用户,同时也能避免过度“误杀”正常借款用户。因此,本文的研究结果可以有效辅助P2P平台及时预测和识别潜在的违约风险,帮助投资者保障合法收益,并且促进P2P行业的监管。
其他文献
杂环化合物是指碳环化合物中的一个或多个成环碳原子被O、S、N、Se、P、As、Sb等非碳原子取代后的化合物。由于杂环在分子生物学、有机合成化学、医药化学、染料化学、农药化
目的通过健康教育提高高血压患者自我管理水平,采用合理的方法控制血压,预防并发症,提高生存质量.方法教会患者健康的生活方式,科学的自我管理方法并提高社会及家庭的支持程
当今世界,爆发世界性大战的危险大大降低,取而代之的是此起彼伏的地区性冲突和局部战争,其中两栖作战是一种经常采用、非常重要的作战样式。因此各国在裁减军事力量的同时,仍
通信技术蓬勃发展,预计2020年5G通信技术将正式完成通信标准制定。5G天线参考相控阵天线的设计思路,引入有源阵列天线技术,可对发射天线产生的波束进行灵活配置。但是由于在
唐汉钧教授是中医外科名家,上海中医药大学教授、博士生导师,擅长治疗中医外科诸病。唐汉钧教授勤求古训,广学博取,内外兼修,中西贯通,尤其对甲状腺疾病的诊治有独到见解,临证效验卓
报纸
陶瓷是我国一项重要的出口项目,因其品质优良、价格低廉而远销许多其他国家,其出口量巨多、出口额巨大,为我国的外贸做出了巨大的贡献。然而当前,由于受到金融危机,以及由此
本文用Excel表的图表直接给出的趋势线参数,对实验室标准曲线A类不确定度进行评价,计算步骤少,适应范围广(适用于线性和非线性),有较强的实用意义。
从劳动权的角度分析了职业稳定权的主体、客体和内容,并与相关概念进行了比较;阐述了职业稳定与职业稳定权对国家和用人单位的有利面以及对劳动者个人可持续发展的重要意义;在对
聚苯胺(PANI)因其具有良好的导电性、氧化还原性能,且原料易得,价格低廉,在导电高分子领域受到广泛关注。但其分子链刚性较强,规整性较高,结晶性能较好,导致其溶熔加工性较差,导致在
在小学数学的教学过程中,传统的教学思想要求教师在课堂上,尽可能地传授给学生大量的数学知识,并要求学生进行多方面的实践和拓展,以提高他们的卷面成绩。但是,在新课改到来