论文部分内容阅读
随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。如何从海量数据中挖掘出有价值的知识已经成为迫切需要解决的问题。近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中极其重要的技术方法。其中准确率和速度是评估一个分类方法性能的重要标准,本文重点以孪生支持向量机和以最佳覆盖为目标的分类算法为对象,在速度和准确率上进行了改进。
首先对孪生支持向量机(TwinSVM)进行了稀疏化。在样本点密集的区域,用一个点近似表示这些样本,并且设定了相对应的权值来表示在特征空间中该点附近训练样本聚集的程度。此外我们还把改进后的稀疏孪生支持向量机推广到了多分类问题,且由于训练样本稀疏化的作用,分类器不会产生数据偏斜。文中给出了详细的推导过程,并用UCI数据库中的一些样本集进行了测试,结果表明稀疏化大大加快了训练速度,而且分类精度可靠。
受仿生模式识别的启发,我们构造了一种新的,以样本在特征空间的分布的最佳覆盖为目标的分类器:拓扑覆盖分类算法。该分类器不用核函数映射,在高维空间中训练速度依然非常快。同样也用UCI库中的数据对拓扑覆盖分类算法进行了测试,并和其他的分类算法进行了对比。结果证明,该算法在预测精度上也是有优势的。