论文部分内容阅读
自2012年以来,我国汽车保有量稳步提升,逐渐放开的费改政策与快速发展的互联网科技,促使大量以车险业务为主要业务支柱的非寿险公司开始向数字化、科技化保险企业转型。随着互联网、车联网与人工智能技术的发展和完善,车险业务数据急剧膨胀,如何从海量数据当中获取有效信息,精准定位有效客户,提高车险产品竞争力,提升车险业务风险管控水平,需要充分利用现有资源和工具。本文基于某财产险公司真实UBI车险返回数据,选用机器学习算法中的GBDT与LightGBM算法,实现UBI车险用户赔付率预测,并从预测值精确度、模型复杂度等多方面与传统广义线性回归模型进行对比。研究结果表明,机器学习算法模型在赔付率预测精确度上有较好表现,有对因变量和自变量先验分布无要求、处理高维大量保险数据效率高、自变量维度保留齐全等优势,但也存在预测值负值率较高且波动范围较大、自变量对因变量影响可解释性不强、对算法使用者数学能力和编程能力要求较高等缺点。研究发现,机器学习算法模型与传统广义线性模型具有互补性,机器学习算法更适合于具有大量基础数据、对预测准确度要求高而忽略自变量与因变量之间可解释性的问题;传统广义线性模型则更侧重于自变量与因变量之间相互影响的反映。实践过程中,应当根据不同的业务场景,选用不同模型,机器学习算法模型与传统广义线性模型的结合,有助于提升数据分析结果准确度,增强企业综合竞争力。现有研究机器学习算法应用于车险业务的文章多针对传统车险业务数据,研究的问题多集中于索赔频率、索赔强度、索赔次数、累计赔付的预测与保险欺诈的识别。使用算法以实现分类任务为主,较少涉及到用回归方法解决预测问题。研究以回归为基础的机器学习算法解决UBI车险赔付率预测问题,具有学术意义的同时也具有重要的实践作用。在学术方面,首先有助于丰富机器学习算法在具有大量数据的车险业务指标预测问题中的应用,其次为机器学习算法推广至非寿险公司其他业务分析提供有益启示;在实践方面,有助于提升保险公司对机器学习算法模型的使用能力,扩展保险公司机器学习算法应用业务范围,提高保险公司车险业务风险管理能力与产品竞争力,完善保险公司数字化转型战略方针;同时有助于监管者制定车险业务数据采样规范与标准,助推保险数据共建共享,充分发挥保险风险管理与保障功能。本文行文结构如下:第一章为绪论;第二章为机器学习算法理论概述;第三章为原始数据描述性统计分析;第四章为基于不同算法的UBI车险赔付率预测;第五章为结论与建议。在第一章绪论中,主要介绍了当前车联网保险发展及研究现状,简述了国内外机器学习算法在车险业务分析中的主要应用,根据我国商车费改不断深入、保险科技迅速发展的背景,提出了使用机器学习算法预测UBI车险赔付率的可能性与必要性。在对国内外有关研究文献进行综述的基础上,介绍了本文的研究方法、创新点与不足。在第二章机器学习算法理论概述中,首先从基础思想、基础模型、基础方法三个角度对本文使用的机器学习算法模型基础理论进行介绍,涉及到回归思想、决策树模型、方向导数与梯度计算方法、梯度下降法等内容;随后对本文使用的GLM模型、GBDT算法模型、LightGBM算法模型进行详细理论拆解,实现了对机器学习算法黑盒的部分透明化,并从模型本身出发,对三个模型进行了比较分析。在第三章原始数据描述性统计分析中,首先介绍了原始数据的来源与数据结构,随后分析了原始数据各维度的基本情况,分析了原始数据采集省份,并对异常值数据进行了删除等初步预处理。在第四章基于不同算法的UBI车险赔付率预测当中,通过使用不同算法模型对赔付率进行了预测,并在预测准确度为基准的基础上,对三个模型在多个方面对比分析。具体可以分为如下几个模块:第一步,以用户作为第一基准,行程作为第二基准,对原始分钟级采样数据进行预处理,缩减数据量的同时,将原有10个数据维度扩展至48个,细化了原始数据各维度的影响。在此基础上,对因变量UBI车险赔付率分布先验分析,对可能符合的分布拟合并分析,同时采用随机抽样的方式划分训练集与测试集,分别占预处理数据比例为20%和80%。第二步,根据第二章介绍的算法理论,分别对UBI车险赔付率预测问题建立GLM模型、GBDT模型与LightGBM模型。在模型训练部分,对于机器学习算法模型,使用~2作为模型训练评价指标,利用网格搜索法,通过训练集训练获得初步参数、预测集控制过拟合的两步调参方法,确定机器学习算法模型参数;对于传统广义线性模型,使用AIC值作为GLM模型训练评价指标,根据因变量对自变量显著影响值,删减部分维度,以获得最优模型。在模型应用于UBI车险赔付率预测部分,随机抽取部分样本的真实值与预测值,以真实值为X轴、预测值为Y轴画图分析预测精确度,并通过MAE、MSE、RMSE三个指标评估模型预测值与真实值误差,同时计算预测值负值率等数据。第三步,以模型预测准确率为首要考虑因素,从预测值负值率、模型运行效率、调参难度、模型复杂度、原始数据维度保留程度等多方面,对三个模型应用于UBI车险赔付率预测问题进行比较。第四步,从模型对硬件返回数据适用性、非自动驾驶机动车UBI车险业务赔付率预测、传统车险业务赔付率预测、车险业务其他指标预测和其他非车险业务应用五方面,对本文使用的机器算法模型进行了适用性推广分析。在第五章结论与建议中,首先对本文研究的机器学习算法应用于UBI车险赔付率预测问题进行了总结,随后结合我国实际情况,从车险业务、保险公司、政策监管三个角度对提高保险公司应用机器学习算法能力、加快我国保险数字化转型提出尝试性建议。