论文部分内容阅读
随着国内个人信贷业务的不断展开,一套科学而且自动的信用评估系统显得极为迫切,为此,许多学者致力于运用统计学方法及最优化理论解决这个问题。支持向量机模型结合了统计学与最优化理论,在满足结构风险最小化的原则下得到分类模型,故本文所研究的个人信用评估应用中的特征优化方法均以支持向量机的分类正确率作为优化标准。并且考虑到样本数据混叠严重的情况,本文利用了K近邻法对SVM模型进行改进,提出了Mul-SVM-KNN模型(见第5.4节)。
由于个人信用数据特征较多存在相关性及冗余,而且有些维度仅为了银行对申请者的常规验证,对其信用评估并无作用,因此特征提取和特征选择是优化信用评估模型的关键步骤。本文首先采用主成分分析方法对取自UCI机器学习库的两个信用数据集进行特征提取,用得到的综合指标进行分类模拟实验。接着,本文设计了两种特征选择算法,即AUC-Sort特征选择方法(见第4.2节)和MG特征选择方法(见第4.3节),其中,AUC-Sort方法计算按各个特征的信息增益大小依次添加进候选特征集得到的ROC曲线下的面积AUC,并选择具有最大AUC的特征集作为选择后的特征集;MG方法则是利用互信息对特征进行预筛选后,借助遗传算法对筛选后的特征集进行优化从而得到最适合信用评估的特征子集。
经过实证分析,本文提出的Mul-SVM-KNN模型对两类样本点混叠较严重的情况下还是比较有效的,而且经过AUC-Sort方法和MG方法优化后的特征子集对分类精度的提高也贡献甚大。