论文部分内容阅读
本文的主要工作包括:
1) 介绍了统计学习理论和支持向量机,各种常见的变形支持向量机算法,特别是广义支持向量机公式。文中还介绍了常见的基于两类支持向量机的多类支持向量机算法。
2) 从理论上通过分析广义支持向量机来研究C-SVM和 -SVM在不平衡样本处理方面的缺陷,并从理论上推导了加权的C-SVM和 -SVM支持向量机算法在类别补偿方面的能力,说明加权的C-SVM和 -SVM支持向量机算法具有补偿类别差异的优点。
3) 提出了基于支持向量机的特征选择算法。本文主要讨论了一种用于多类支持向量机的嵌入式特征选择算法。该算法结合了嵌入式特征选择算法和基于风险预报的特征选择评价准则,在UCI数据集上同基于脑最优死亡的特征选择算法做了比较,结果表明基于预报风险的特征选择算法比基于脑最优死亡的特征选择算法更能提高多值分类支持向量机的预报能力。
4) 本文介绍了数据挖掘系统的研究现状,并介绍了流行的数据挖掘系统,以及数据挖掘的一般流程和数据挖掘系统发展的四个阶段。在此基础上,介绍了DMBench开放式数据挖掘平台的原理以及部分算法和应用,并对数据挖掘平台的尝试性工作做了总结与分析。