论文部分内容阅读
最小二乘支持向量机是一个重要的机器学习模型,被广泛应用于实际问题中。其主要的缺陷是模型的解是非稀疏的,这导致几乎所有的训练样本都对最终决策起作用,从而使得模型预测速度变得缓慢。随着互联网的飞速发展,现有数据规模变得非常庞大,在单机上训练模型变得极其困难。主要原因在于:一方面,单机内存放不下海量的数据,另一方面,单机计算能力有限,计算复杂的任务耗时漫长。因此,如何得到大规模最小二乘支持向量机模型的稀疏解是一个重要的研究课题。针对最小二乘支持向量机模型的解不稀疏的问题,基于1正则回归,本文提出了一个稀疏最小二乘向量机算法。针对大规模问题,受集成学习方法的启发,本文首先利用Bootstrap采样选择训练样本,然后并行计算每一个1正则回归模型,最后利用集成学习策略得到原始大规模问题的解。为了验证所提算法的有效性,本文首先分别在小规模回归数据集和分类数据集上进行实验。实验结果表明:在测试精度没有显著下降的情况下,所提算法在小规模问题上得到的解是稀疏的。在大规模数据上的测试结果表明:与现有的大规模算法相比,在耗时较少、测试精度没有显著下降的情况下,本文所提出的算法同样得到了稀疏解。