论文部分内容阅读
本文所指的P2P网贷平台信用风险是指以P2P网贷平台为主体,出现延期兑付、提现困难、经侦介入、平台关停跑路等不能及时偿付投资人利息及本金的信用风险事件。为规范我国互联网金融的发展,保护投资者的合法利益,优化市场监管体系,本文对P2P网贷平台信用风险的研究,将各类平台按信用风险情况的不同进行等级划分,分析各类平台的特点并筛选关键信用风险指标,形成针对P2P网贷平台的信用风险预测模型,以指导投资者进行决策,并为监管者提供预警和建议。本文所基于的数据挖掘视角,具体是指运用了数据挖掘技术中,当前最经典的两种算法——无监督学习和有监督学习,其中无监督学习主要运用了K-means聚类和层次聚类,有监督学习包括支持向量机和决策树。相较于传统信用评级方法(本文中具体指专家打分法、主成分分析法和层次分析法),数据挖掘方法具有三方面的优势:第一,不需人为设定指标权重和变量的等级区间,排除了专家打分法和主成分分析法固有的主观性影响;第二,机器学习算法直接根据数据内部联系,探寻数据点内部的规律与关联,不依赖前人研究经验,有可能得到具备不平凡性的结果,也更适用于在我国快速发展、具备显著动态性的P2P网贷行业评级领域;第三,机器学习算法调用简便、建模速度快,方便对比不同类型提升算法的准确性,且随着训练集的扩充,预测精度将不断提升。本文首先利用无监督学习方法对搜集的268个平台、根据15个指标进行聚类分析,得到每类之间最大不同且每类内部各平台最大程度相似的5种类型,并分析各类型的主要特点,得到对不同信用风险等级分类贡献度最大的关键指标。第二步运用有监督学习方法,首先利用SVM对无监督学习方法所得结果进行验证,然后通过已进行标签化的数据,包括正常、经侦介入、延期对付三类平台,训练出有监督学习模型,并对比SVM、ID3决策树、CART决策树以及C4.5决策树模型在这一领域的适用性,利用这些模型可对其他的无标签数据进行识别和划分,实现一定程度上的风险预测功能。