论文部分内容阅读
互联网的迅速发展让我们的生活方式发生了巨大的变革,尤其是近些年互联网和金融的结合并依托互联网、大数据、云计算等技术深刻的影响了传统金融行业,改变了人们的生活方式。但基于互联网自身的特点和相应制度的不够完善,互联网金融同时也存在着一定的风险性,加强监管和降低风险已经成为了互联网金融行业面临的重大挑战。本文从互联网金融中信用风险出发研究,旨在通过对互联网金融公司的数据研究,找到能够预测客户是否存在违约风险的判定方法,最大程度的减少公司的损失。本文通过对国内外相关成果的研究,结合中国互联网金融的发展状况,利用统计学知识和机器学习方法进行建模分析,选取了某一互联网金融公司的金融数据共1000个样本和29个变量作为研究对象。在建立模型之前首先利用对原始数据进行了处理和描述性统计分析,将数据分为了训练集和测试集两部分。为了找到最合适方法,在综合分析现有模型的优缺点基础上,本文分别建立了决策树模型、朴素贝叶斯模型和Logistic回归模型,利用测试集数据进行验证得到混淆矩阵。为了提高模型准确度又对决策树模型加入了自适应,对朴素贝叶斯模型加入了Laplace修正,然后结合F度量和ROC曲线等指标综合对比发现Logistic回归的预测效果最理想。最后,总结了研究的结果,对发现的问题进行分析并给出建议。