基于大数据的个人信用风险评估模型研究

被引量 : 72次 | 上传用户:tianxia108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“互联网+”已经被提升为中国国家战略高度。以淘宝、京东等为代表的电子商务网站,以微信APP、QQ为代表的社交平台以及支付宝、微信支付为代表的在线支付工具已经深入到我们每个人的日常生活,互联网支付、众筹融资、P2P借贷、在线理财、网络贷款等各种形式的互联网金融服务在我国呈现出生机勃勃的发展景象,互联网和大数据已经对国民经济的很多领域以及商业模式产生了深远的影响。如何全面和准确地评估个人信用风险状况,并在此基础上开展个性化的授信金融服务,既是商业银行、小额贷款公司等传统金融机构风险控制的核心环节,也是P2P等新兴互联网金融机构业务经营过程中的痛点,持续攀升的不良贷款率更是倒逼这些金融机构不断提升风险管理水平。各类金融机构在个人信用风险评估环节中,过于倚重央行的个人征信系统,该系统收录的自然人数达8.6亿多,但其中仅有3亿多人有信贷记录,且信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在短板。大数据为个人信用风险评估提供了一种新的方法。通过将用户在互联网上网购、交易、社交等平台的商誉和行为数据进行整合和分析,将分散在不同网络平台和信贷机构的局部信息加工融合成为具有完整视图效果的全局信息。深度挖掘互联网大数据信息,将用户商誉和行为信息转化为信贷评级依据,开发大数据风控模型,弥补央行个人征信信息的不足,解决交易过程中的信息不对称的问题,既可以对互联网金融平台、小额贷款公司等金融机构提供一个有力的风险抓手,也可以为央行征信系统信贷数据缺失或者信用记录不好的用户提供一个获取信用类服务的机会。无论是线上还是线下的用户消费、社交数据,都有着不同于传统征信信息的独有特征,使得传统个人信用风险评估模型和方法在大数据环境下无法取得满意效果:(1)数据的稀疏性强。用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大。(2)数据覆盖面广。信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个。(3)单变量风险区分能力弱。不同于传统风险模型采用的历史履约情况、个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量。传统信用风险评估模型在业务逻辑架构下,利用数据驱动或专家经验开发模型模板,最终结合逻辑回归、判别分析等统计分析模型得到精准的计量结果。然而在新的数据画像和业务情景下,原有的业务逻辑框架和传统统计分析模型的应用都受到严重限制。近几年,以决策树、神经网络等为代表的机器学习技术得到飞速发展,在信息识别、推荐引擎等领域都取得了出色的应用效果。如何结合传统风险评估模型体系和机器学习技术,在保证业务逻辑和评分广泛应用的前提下,更加精准的评估风险是一个值得研究的课题,本文的研究内容在这方面是一个有益的尝试。鉴于此,本文针对基于大数据的个人信用风险评估模型体系,重点研究下述关键内容:(1)通过对模型的数据基础、表现定义及逻辑、样本分类和抽样方案等建模基础信息进行详细分析,提出大数据环境下的个人信用风险评估模型——creditnet研究框架,将creditnet模型划分为三个研究阶段,逐步限定技术要点,开展模型构建研究。(2)针对creditnet模型研究框架的第一个阶段,本文将用户画像的概念引入个人信用风险评估领域,从六大维度构建用户信用画像,解决了大数据环境下个人信息的有效收集和组织问题,并通过变量衍生的方法增强单变量的风险区分能力。在此基础上,从数据收集、数据核对和数据清洗等方面对大数据的预处理方法进行了阐述,结合对单变量分析和多变量分析方法,为大数据环境下个人信用风险评估模型的研究奠定了数据基础。(3)针对creditnet模型研究框架的第二个阶段,本文将机器学习理论中的随机森林模型与logisitc回归模型进行结合,构建rf-l核模型,生成了一系列具有风险评估能力的子模型。在进行统计建模前,利用随机森林中的chaid决策树进行分析,并生成二元决策树变量,然后将随机森林模型的输出结果导入logistic回归模型中进行统计建模,为大数据信息转变为风险评估依据奠定了模型基础。(4)针对creditnet模型研究框架的第三个阶段,本文提出将机器学习理论中的adaboost集成学习算法应用到对rf-l核模型生成的一系列评估子模型的集成研究中,通过对不同评估能力的子模型进行集成,增强了最终模型的评估效果。(5)基于上述研究,进一步验证CreditNet模型的效果。本文从CreditNet模型的区分能力、稳定性等方面进行了测试,将CreditNet模型与其他模型的评估效果进行了对比分析,并在某股份制商业银行和某P2P公司的业务中对CreditNet模型进行了实证分析,对CreditNet模型的应用场景进行了展望。
其他文献
物业管理最早源于19世纪60年代英国的伯明翰市,但真正意义上的现代物业管理形成并发展于20世纪20年代的美国。目前,国外已经形成了以建筑物区分所有权为轴心的关于多层高层楼宇
通过对《人民日报》、《南方周末》和《华西都市报》的相关报道的内容分析和话语分析,本文研究了国内主要报纸对大学形象的再现现状。研究发现,作为一家综合性政党报纸,《人民日
笔者从1988~2000年的12年间共治疗颞下颌关节功能紊乱症152例,效果良好,现报道如下.
<正>查干湖的水,滋润着美丽、富饶的松原大地,这里景色秀美、人杰地灵。扶余油田喷涌的原油,给这里的人民带来了物质的丰盈,满族新城戏这独特的地方戏曲剧种,给这里的人民增
音乐是一门听觉艺术,很多东西都不太好用文字来表达。一个和弦的感觉你说不出来,但是只要你在乐器上弹奏出来,就会感受到它的音响效果。本文着重对乐理在教学中的定位进行分
“全球化”是目前理论界无法回避的理论事实,文化的“全球化”也正在世界范围内如火如荼地进行着,东方文化必须和西方文化发生碰撞,西方文化也要和东方文化进行交流。在这种情况
本文在广泛借鉴汲取前人研究理论及成果的基础上,以民族学的视角,采用文献资料和田野考察相结合的研究方法,对裕固族的“民族过程”进行了综合地考察和梳理,并以此为基础对裕固族
图像的数据是非常巨大的,这使得图像压缩成为必然。图像压缩中的关键技术包括对图像数据的变换、对变换数据的量化、以及对量化后数据的熵编码。近年来随着小波分析理论的发展
目的对比米非司酮联合米索前列醇口服与米非司酮联合卡前列甲酯栓(卡孕)阴道用药终止早孕(妊娠时间不超过49 d)的临床效果。方法选取2016年6月至11月收治的早孕患者140例,随机分
调制方式是区分不同性质通信信号的一个重要特征,而要截获通信信号的信息内容,就必须知道信号的调制方式和调制参数。给定一段接收的通信信号,调制识别的目的就是在未知调制信息