论文部分内容阅读
随机森林算法是一种普适性良好的分类算法,适用范围广且不易过拟合。但是随机森林算法仍有一些不足,还有改进的空间。本文介绍了分类算法和随机森林算法的思想原理,在相关研究现状等基础上,提出了一些改进算法,具体工作有:(1)研究了不同分类算法,选择UCI数据进行仿真,总结了全面的评价指标后,对比了逻辑回归、朴素贝叶斯、神经网络、支持向量机和随机森林算法的效果,实验表明随着数据不平衡程度加大,随机森林算法效果普遍优于其他算法,具有优越性;(2)针对不平衡数据处理和SMOTE采样算法的缺点,提出CURE-SMOTE算法。实验选择人工数据和UCI不平衡数据,对比了原始数据、随机采样、SMOTE采样、Borederline-SMOTE1、safe-level-SMOTE、C-SMOTE、Kmeans-SMOTE采样分类结果,发现本文提出的算法更接近原始数据分布,且引入噪声最少,分类效果较佳,验证了算法有效性和可行性;(3)特征选择和参数也是影响算法性能的关键因素。本文提出基于随机森林的智能算法特征选择和参数优化混合算法,通过二进制编码,对树的规模、子属性个数和特征选择同时搜索,以最小化袋外数据误差为目标函数。实验选择高维二分类和多分类数据,对比了无特征选择下,参数传统取值和混合遗传随机森林、混合粒子群随机森林和混合鱼群随机森林算法的结果,从F值、G-mean、AUC和OOB error等多个指标表明该算法可以提高随机森林的性能,为特征选择和参数优化提供了新思路。