论文部分内容阅读
支持向量机是近年来流行的机器学习方法,建立在结构风险最小化原则的基础上,因此能够较好地处理小样本情况下的学习问题。然而在支持向量机算法的大样本学习应用中,存在着三大必须解决的问题:算法速度问题、支持向量存量问题和算法参数选择问题。目前主流的支持向量机优化方程和训练算法难以同时满足速度快、内存占用少并且支持向量少的要求,主要困难在于支持向量机训练过程中支持向量个数太多。核向量机是支持向量机的一个重要改进,可以极大减少支持向量的个数,但是仍然存在内核限制,泛化能力低等缺陷。所以本文在分析了支持向量机的基本理论和基本性质的基础上,针对核向量机算法的缺点和不足,提出基于广泛内核的核向量机算法和基于核聚类的相对距离比较方法,克服了现存算法存在的缺陷,提高了支持向量机的训练与分类效率。首先针对最小闭包球问题的内核限制问题,分析了最小闭包球和中心约束闭包球之间的关系;在此基础上,针对最小闭包球问题的二次规划问题,提出新超球的球心和半径的更新方法,从而得到新的基于广泛核的核支持向量机算法;从理论上证明了基于广泛核的核支持向量机算法的收敛性,并给出了该算法的时间复杂度和空间复杂度。其次针对已有的参数C选择算法缺乏启发性以及选取困难的不足,本文在分析了核聚类算法和距离比较算法的基础之后,提出基于核聚类的相对距离比较方法。该算法利用核聚类算法在特征空间对样本点进行聚类,然后根据每个样本点到聚类中心的距离的比值,得到参数C。本文在理论方面,证明了该算法的收敛性,分析了算法的复杂度,选取的参数提高了核支持向量机算法的泛化能力。最后,本文在Linux环境下进行实验,从CPU运行时间、核向量集的大小及测试准确率三个方面,分别分析比较核向量机、简单核向量机和基于广泛内核的核向量机三个算法;分别利用交叉验证法、结构风险法和基于核聚类的距离计较方法选择参数C ,然后分析比较算法的预测准确率。实验结果表明,基于广泛内核的核向量机去除了内核的限制,降低了算法的复杂度,并提高了算法的泛化能力;基于核聚类的相对距离计较方法可以选取合适的参数C ,提高算法的性能。