基于智能特征选择和集成学习的互联网金融信贷风险预测

来源 :深圳大学 | 被引量 : 0次 | 上传用户:hhzzmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据、人工智能技术的研究和应用正在不断加速金融产业的发展。许多金融信贷机构已经将数据挖掘技术应用于信用贷款风险预测、信用评分,从海量的客户数据中抽取可以识别客户风险的有效信息,进一步实现精细化的信贷审批和额度分配。由于客户数据存在高维度、类别极度不均衡、稀疏等问题。目前,信贷风险预测的研究主要集中在特征工程和信用评估模型上。特征工程可以从原始数据中构造出特征数据,评估模型将客户的特征数据进行模式识别。本文从特征工程-模型构建的角度出发,对高维的客户数据进行特征选择,并利用特征选择后的数据建立基于集成学习的风险预测模型。基于智能特征选择的互联网金融信贷风险预测包含以下创新研究:(1)针对客户数据存在高维度且特征冗余等问题,提出一种改进的基于头脑风暴优化算法的特征选择方法。由于传统特征选择方法性能不佳,且现有的智能算法优化效率低、收敛慢。因此,本文通过整合头脑风暴优化算法的空间探索能力和强化学习对规则的推理能力,定义适合特征选择问题的动作-状态函数,设计两种特征子集搜索方法:全局强化搜索和局部变邻域搜索,并执行基于动态更新概率的特征选择方式。(2)针对客户数据存在类别极度不均衡、稀疏且存在特征交互等问题,构造一种考虑特征交互的集成学习信用评估模型。传统的集成学习能够解决类别极度不均衡、稀疏等问题,然而不具备挖掘特征之间交互信息的能力。本文利用集成学习XGBoost识别原始数据的分类结果,并组合成新特征向量,产生分类性强的数据分布。在此基础上,将扩充的新特征进行一阶线性学习、二阶特征组合以及高阶特征交互的复杂数据表征,挖掘特征之间的交互信息。最后,输出所预测的客户风险概率。(3)针对现有风控指标体系薄弱,数据预处理技术不完善等问题,本文设计了一套客户信用风险预估流程。将互联网信贷客户数据的采集、清洗、模型构建、分析、应用整合为一体。其中,应用数据预处理技术获取可行的数据;利用特征选择技术得到风控指标;采用风险预估技术预测不同客户的风险标签。为了验证所提出的特征工程-模型构建框架的有效性,本文利用机器学习数据平台Kaggle上面提供的大型信贷数据进行验证。实验采用了多种先进的特征选择方法和分类算法作为对比方法。实验结果表明,无论是改进的特征选择方法还是信用评估模型,均在泛化性能上超越其他对比算法。从而证明了本文提出的特征选择方法能够更好地提取重要的特征信息,并且所提出的分类算法能够更好地识别客户的风险特性。尽管模型在时效性上不够先进,采用线下训练线上部署的方式可以解决该类问题。综上所述,本文提出的基于智能特征选择的互联网金融信贷风险预测模型,能够更加精确地识别信贷客户的风险特征,有助于互联网信贷机构建设金融信贷业务中的指标体系、完善互联网金融机构的审批和信用额度分配流程。此文得到国家自然科学基金项目(71971143、71571120)的资助。
其他文献
叔胺与羰基化合物之间的反应已是国内外化学家们研究的热点。叔胺与羰基化合物的常见反应,例如两个C-H键的直接氧化交叉脱氢偶联(Cross-dehydrogenative coupling,CDC)是有机合成中有效且相对清洁的有机合成策略。在这些反应中,对映选择性催化的发展仍然是一个挑战。最近,叔胺与羰基化合物的不对称催化反应在有机合成领域虽已取得越来越多的突破,但仍然需要解决一系列的问题。近年来,光
韧性水凝胶是一类具有优异机械性能(如良好的拉伸性、韧性、抗疲劳性能等)的软材料。结合水凝胶的生物相容性、离子导电性、黏性和对p H、温度、湿度等的响应性,韧性水凝胶在生物工程、柔性电子器件、传感器、柔性机器人、药物释放和储能器件等领域应用广泛。然而水凝胶内部大量的水分在低温下易结冰,长时间使用时内部水分容易蒸发,这两个缺点使得水凝胶在应用时无法长时间正常稳定工作。受生物冻存的冷冻保护液启发,本文提
镓及其合金是一类在室温或接近室温的温度下呈液态的金属材料,具有高导电性、低毒、低蒸气压等优点,近年来被广泛应用于柔性电子领域、化学催化、生物医学等领域。制备镓基液态金属纳米液滴,并将其印刷至柔性基底,是低成本、大面积制备液态金属柔性电路的一个有效途径。然而,液态金属纳米液滴的制备存在着尺寸控制差、表面功能化处理困难等问题。针对以上关键问题,本论文利用超声波促使多巴胺的自聚合,制备了表面活性剂稳定的
轨道交通在国内快速发展的同时,保障公共安全的轨道线路日常养护检修工作越来越受到重视。随着轨道车辆技术的发展与提速、线路里程的增长带来的检修压力,轨道扣件在保持轨道线路稳定上愈发重要。轨道扣件在实现钢轨与道床的连结固定、保持轨道间距上有着重要作用。目前轨道扣件日常养护中以人工检测为主的检测方法已经无法满足轨道线路智能化检测的需求,人眼只能针对破损性扣件进行目测而无法对扣件的扣压力进行评价。本文研究的
近年来,无人机技术有了广泛的应用和长足的发展,人们越来越多的使用无人机进行多种场景的拍摄。尤其对于诸如城市街景、山水风景等固定场景,使用无人机拍摄的相关技术和方法已经非常成熟。而复杂动态场景的实时拍摄,仍然以使用摇臂摄像机,设置多个机位,依靠人为操控的传统方式为主。如果能将无人机用于复杂动态场景的实时拍摄,将能节省大量人力,并有望达到更好的拍摄效果。与其他平台相比,从无人机平台上对这种场景的处理需
研究约翰·凯奇的音乐创作特点并非易事。一方面源于约翰·凯奇创作数量之多、涉猎风格类型与体裁甚广——两百多部音乐文本,拥有独奏(唱)、重奏(唱)、合唱、大型多媒体综合表演等多种演出形式,涵盖室内乐、管弦乐、电子音乐等多种音乐类型,且风格多变。然而,音乐创作总是沿着时间脉络呈过渡性发展,笔者因此为众文本划分阶段,并从各阶段挑选典型文本,细析一二,从而管中窥豹,获悉约翰·凯奇音乐文本的基本全貌;另一方面
“乐感文化”是一种乐天知命的实用主义文化,具有导向人与内部身心、人与人、人与外部环境等的和谐、以追求“天人合一”为最高境界的内涵特征,对中国文化的发展有着深刻的影响。本研究以中国传统“乐感文化”作为切入点,以中国舞台民间舞创作为研究对象,分析“乐感文化”对中国舞台民间舞创作所产生的影响。文章绪论部分主要阐述研究缘起与研究目的,对以往有关“乐感文化”的研究动态、中国舞台民间舞创作的研究动态进行了历史
随着经济的发展和人民生活水平的提高,企业和个人迫切需要进行各种投资以使得其收入和资产得到保值和增值。股票、期货、外汇、黄金、基金等金融产品层出不穷。人们在投资这些金融产品时,可以获得较为高额的收益,但是也可能导致很大的损失。金融市场的危险无处不在,所以人们在投资时都需要面对一个问题,就是如何在追逐着丰厚收益的时候对其带来的风险进行评估与控制。投资组合是一种财务概念,可以组合多个股票以降低风险。投资
物联网时代,三维技术对深度传感器的需求在不断上升,特别是在自动驾驶、虚拟现实、增强现实、机器人视觉、工厂自动化、人工智能等领域的应用不断增加。近十年来,三维成像和测距成为了最重要和最富有创新性的研究领域之一。其中最为热门的即是光子飞行时间技术(Time of Flight),简称To F。To F根据测距原理的不同,一般可以分为两种:时差测距和相位测距,即直接式和间接式。间接式To F深度传感器具
文字包含丰富的语义信息,常用来表达情感,传承知识。本文主要研究现实生活中的文字,这类文字被称为自然场景文本。场景文字的检测和识别技术具有广泛的应用场景,如车牌识别、票据识别、图像检索等。自2012年以来,基于深度学习的方法在计算机视觉刷新了多项任务的指标,取得了叹为观止的成果,当下文本检测领域的主流方法也都使用深度学习算法。本文基于深度学习框架,围绕场景文本不规则的形状、变化幅度大的尺度以及大间距