论文部分内容阅读
类别不平衡数据集分类是机器学习和模式识别中的一个热点研究问题。类别不平衡数据集存在于许多实际工程领域,如有色冶金过程的故障检测和网络入侵检测等。现有的分类算法大多以误分率最小化为目标,并假设训练数据集类别是平衡的和误分类代价是相等的。当用这些分类算法处理类别不平衡数据集分类问题时,容易对多数类过学习和对少数类欠学习,从而导致分类器性能下降。针对数据集中类别不平衡、误分类代价不等、噪音特征和标注代价昂贵等问题,研究了类别不平衡和误分类代价不等的数据集分类新方法。通过实际有色冶金过程数据集中仿真实验验证了所提方法的有效性和优越性。主要的研究工作和创新性成果如下:第二章研究了有色冶金过程中操作模式集的特点。详细地分析了有色冶金过程操作模式集中的类别不平衡、误分类代价不等、噪音特征、标注代价昂贵等问题。阐述了操作模式分类的假设。最后给出了有色冶金过程的操作模式分类流程图。第三章针对数据集中相对类别不平衡和误分类代价不等问题,提出了代价敏感概率神经网络方法。分析了在类别不平衡数据集上基于密度核估计的概率神经网络和基于密度函数混合高斯分布的概率神经网络不能有效识别少数类样本的原因,引入代价敏感机制,提出代价敏感概率神经网络。并将其应用于铜闪熔炼过程操作模式集分类。实验结果表明,所提方法提高了故障类和优良类操作模式识别率,并减少了平均误分类代价。第四章针对数据集中极端类别不平衡问题,提出了基于粒子群优化和滑动窗口的支持向量数据描述方法。采用粒子群算法优化支持向量数据描述的核参数。利用滑动窗口的大窗口大小来控制训练集的规模,利用滑动窗口的小窗口大小测试误差来调整大窗口大小,自适应地调整训练集规模。将其应用于铜转炉熔炼过程的操作模式集分类。实验结果表明,所提方法能有效识别故障类操作模式。第五章针对数据集中类别不平衡、误分类代价不等和噪音特征问题,提出了基于粒子群优化的代价敏感支持向量机和基于同步优化的间隔校正的代价敏感支持向量机。首先介绍和比较了标准的支持向量机、代价敏感支持向量机、间隔校正的代价敏感支持向量机,并完整地给出了这3种算法求解方法。然后,利用连续版的粒子群算法优化代价敏感支持向量机的核参数、误分类代价参数和间隔参数;同时利用离散版的粒子群算法优化代价敏感支持向量的特征集。最后,将其应用于人工数据集和氧化铝蒸发过程操作模式集。实验结果表明,所提方法能有效识别氧化铝蒸发过程优良类和故障类操作模式,选择合适的操作模式特征。第六章针对数据集中类别不平衡、误分类代价不等和标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机。定义了未标注样本的不确定性,选择不确定性高的未标注样本进行标注利用已标注样本集训练3个代价敏感支持向量机;用其中两个代价敏感支持向量机预测未标注样本,如果这两个代价敏感支持向量机预测的类标一致,则添加到训练集,最终训练出代价敏感支持向量机。并用近似概率正确理论分析自训练方法在主动代价敏感学习中效果。将其应用于铜闪速熔炼过程故障类操作模式检测。实验结果表明,所提方法不仅能减少标注代价而且能减少平均误分类代价。