论文部分内容阅读
分类是数据挖掘中的一项重要工作内容。在常用的分类方法中,马田系统因基于数据进行分析而不需要对数据的分布进行假设,并且能够有效进行特征变量的筛选,真正意义上达到降维的目的,而在许多领域得到应用。本文主要对马田系统中两类别分类问题进行研究。主要的工作有以下的两点:(1)基于粒子群算法的马田系统两类别分类方法研究传统的马田系统在进行特征变量的筛选时,是使用正交表和信噪比方法来实现的,但一些学者研究的表明:在进行特征变量选择时,使用正交表和信噪比并不一定是最佳的方式。本文研究基于粒子群算法的马田系统分类方法(基于平衡数据),构建优化模型,将粒子群算法与马田系统方法进行结合,用粒子群优化算法对特征变量进行选择,使其更好的用于平衡数据的分类问题中。(2)基于集成思想的马田系统不平衡数据分类研究在现实生活中,不平衡数据分类问题普遍存在,不平衡问题是指分类类别样本量有显著的差异,而同时少数样本类往往是人们所关注的。传统马田系统在对不平衡问题进行分类时,分类的正确率会受多数类样本的影响,而使得结果倾向于多数样本类,导致忽视了少数样本类正确率的重要性。本文针对传统的马田系统方法未考虑数据不平衡因素的影响,提出将优化思想、集成的思想与马田系统相结合,以提高不平衡数据分类效果为目标,构建优化模型,用以对马田系统进行改进,使其更好的用于不平衡数据分类问题。