论文部分内容阅读
决策树(CART)模型因其可读性强,分类效率高的特点,受到科学研究各个领域的青睐。但在特征分布复杂的实际数据集上,经典CART算法在选择特征建立树模型时存在效率过低,分类精度差的情况,从而引起对CART分层变量选择的进一步研究。本文首先对决策树算法的发展和理论进行梳理和研究,结合高维数据特征数量庞大的特点,阐述CART算法的局限性和特征选择的必要性。在介绍了三种特征选择方法定义的基础上,进一步详细研究基于统计特性的简单过滤方法、基于方差分析的过滤式方法和基于随机森林的装袋式方法。作为实证研究,对基因微阵列数据中急性淋巴细胞白血病数据集进行试验,采用三种特征选择方法,从12625个基因的原始特征集中选择出重要性排序在前30的基因作为最终的特征集合。针对高维问题的CART分层变量选择上,本文将重复交叉验证(Repeated cross-validation)与分层交叉验证(Nested cross-validation)相结合,提出 了改进的分层重复交叉验证的CART算法,并在基因微阵列数据集上进行实验验证。在3937个特征的高维数据上建立的改进的CART分类准确度0.85高于在30个特征上建立的CART的0.82,改进的CART适用高维数据,且分类精度提高。针对常规数据集的CART分层变量的选择上,本文将特征与分类类别的距离度量D(xi)与Gini系数相组合,得到改进的选择分层变量的指标GD(S,xi=ximi),并采用网格搜索确定最优的权重α、β,提出基于网格搜索的改进CART,并在UCI数据库的心脏病数据集上与常用的9种分类算法进行实验对比。改进的CART在心脏病数据集上的分类准确度为0.94,高于包括CART、多层感知器、Bernoulli贝叶斯算法、logistics回归算法、支持向量机等在内的其他9种分类算法的分类准确度。本文在CART算法的数据集处理和特征选择指标的两个方面进行了创新,提出两种改进算法,对在实际分类问题背景下改进CART具有积极意义。