论文部分内容阅读
随着计算机和信息技术的快速发展,人们需要花费昂贵的代价收集、存储和处理海量的数据。数据挖掘源于数据库技术引发的海量数据和人们利用这些数据的愿望。用数据管理系统存储数据,用机器学习的方法分析数据、挖掘海量数据背后的知识,便促成了数据挖掘(data mining)的产生。如何从中发现有用的信息,已经成为一个迫切需要解决的问题,数据挖掘技术在这种背景下应运而生。数据挖掘就是在数据库中发现有用的、潜在的、最终可理解的模式的非平凡过程。它是一门交叉学科,涉及机器学习、数学规划、数理统计、模式识别等相关技术。支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。它是机器学习领域若干标准技术的集大成者。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。在若干挑战性的应用中,获得了目前为止最好的性能。在美国科学杂志上,支持向量机以及核学习方法被认为是“机器学习领域非常流行的方法和成功的例子,并是一个十分令人瞩目的发展放向”。首先本文给出了一种新的计算支持向量机中正则参数和核参数的方法,与已有的一些算法不同,它是将C和γ作为优化问题中的变量来处理,并通过遗传算法和确定性算法相结合来解这个平衡约束优化问题,从而求出支持向量机(SVM)在分类问题中的正则参数C和γ。其中遗传算法用来求解以C和γ为变量的优化问题,而确定性算法对每一对C和γ值求解约束。另外通过数值计算将该方法的的结果与已有的grid search方法进行比较,可以得出用文中所述的方法求得的C和γ值能明显提高支持向量机的泛化性能。