论文部分内容阅读
随着互联网的发展和普及,信用卡支付行业得到迅速发展,信用卡成为网上购物和线下消费最受欢迎的支付方式,同时与信用卡交易相关的欺诈案件也在增加。欺诈交易分布在真实世界的交易中,简单的识别方法通常难以准确地检测到欺诈交易行为。为保障信用卡支付的安全,采用人工智能技术对信用卡交易进行欺诈检测显得尤其重要。信用卡交易数据存在数据量大、数据集不平衡、计算复杂度大和识别率低等问题,本文通过研究不平衡数据分类方法、信用卡数据特征、随机森林方法,提出了一种可以应对高度不均衡数据分类问题的随机森林方法。该方法首先对信用卡数据进行过采样处理,其次降低训练样本维度,最后使用随机森林进行欺诈检测识别。通过对信用卡数据特征的分析,提出一种通过聚类的方式,选择更具代表性的正类样本进行过拟合的方法,有效的解决了信用卡数据集分类结果假阳性率高的问题,并通过实验证明该过拟合方法,同样适用与信用卡数据集具有相似特征的金融数据。针对分类器精准度低的问题,提出一种分类器决策树的选择方法,有效的提高了随机森林算法的精准度。本文通过大量的实验,对信用卡欺诈方法的参数选择和性能指标进行了分析,对使用随机森林解决不均衡数据集的分类具有重要的学术意义和实用价值。