论文部分内容阅读
随着世界经济、信息技术水平不断提高,越来越多的人开始使用信用卡进行交易,信用卡已成为现代生活中非常重要的支付手段,尤其是在欧洲、美国等发达国家,信用卡业务体系相当完善。在我国,虽然信用卡发展时间较短但发展速度迅猛。信用卡透支消费已成为中国新型消费模式,并有望在不久的将来成为主要消费模式。伴随着信用卡使用规模的迅速扩大,信用卡欺诈问题变得越来越严峻,解决此问题已变得刻不容缓。信用卡欺诈问题不仅在经济上令银行蒙受巨额损失,还让银行因此失去大量客户资源,极大地影响了我国商业银行风险控制情况,严重阻碍我国金融系统的正常发展壮大。因此寻找合适的信用卡欺诈风险监测识别方法刻不容缓。随着近年来数据挖掘技术的逐步成熟,将数据挖掘和机器学习技术应用于信用卡欺诈风险检测和识别已成为了此领域新的研究趋势。本文以欧洲信用卡中心2日内交易数据为例,构建欺诈交易识别模型。从抽样和算法两个角度处理因欺诈交易量低而导致的数据信息不对称问题。从抽样角度出发,利用SMOTE抽样方法使欺诈交易数据量与正常交易数据量相同,然后通过Logistic回归方法构建欺诈识别模型。从算法角度考虑,通过引入代价矩阵,对不同类别的数据赋予不同的代价权重,从而构建整个模型。这里采用Adaboost的改进算法AdaCost对数据集进行建模。最终采用AUPRC (AreaUnderthe Precision and Recall Curve)和 AUROC (Area Under the Receiver Operating Characteristic)两个指标对模型进行评价,发现无论从算法角度还是抽样角度均能很好地识别欺诈交易并且效果基本相同。该结果也验证了对不平衡数据问题从抽样和算法两个角度建立适当的模型是等效的。