论文部分内容阅读
在日常活动中,人们通过辨识事物的特征属性,对不同对象进行区分以及进一步的分析决策。然而在实践中,往往存在待辨认特征属性数量过大而影响人类认知的情况。因此,研究人员开始研究如何利用计算机来模拟人类分类的方法,且已经取得了一定的成果。但是,为了精确地描述对象且提高分类性能,需要获取庞大的属性信息,这同时也带来了时间和空间的复杂度问题。在这种情况下,属性简化成为当前一项重要课题。包括特征选择消除、特征提取等方法在内的属性约简,被用来简化特征信息,以在尽可能短的时间和尽可能小的空间内,获取高维数据中的特征信息。相比于使用全部特征,通过属性约简的相关方法获得约简子集可以在短时间内获得近似或者更好的分类效果,达到分类识别率和计算复杂度的平衡。本文对支持向量数据描述算法进行研究,对不同类别的数据建模,约简数据的属性,获取核心信息,进行高效的分类决策。相关工作主要包括: (1)提出了基于多个支持向量数据描述的对偶目标递归特征消除方法。支持向量数据描述利用目标样本集中的特征信息对数据进行训练,并求解对偶二次规划得到最优解。对偶特征选择方法计算每一类数据对应的对偶目标函数,找到最差特征对应的对偶目标排序分值,消除最差特征,约简目标数据量。实验证明,该方法可以有效地约简数据的属性,提升分类效率。 (2)提出了基于多个支持向量数据描述的半径递归特征消除方法。在所提方法中,支持向量数据描述围绕一类数据集获得一个封闭的分界,将异类样本拒绝在边界外,最终得到以球心和半径度量的超球体模型。对于多类数据,该方法分别对每一类超球体模型的半径进行相对排序,消除对应最小半径排序的特征,最终获得核心特征。多个数据集上的实验证明,相比于对偶目标递归特征消除方法,半径递归特征消除法不仅可以加快分类速度,在维度较小的情况下,仍能保持很好的分类正确率。 (3)提出了基于多个支持向量数据描述的定向距离特征提取方法。由于在实际应用中,数据特征间不仅仅只有好坏之分,往往还可能存在复杂的联系,在消除部分特征以后,相关的联系就有丢失的可能,所以通过不良特征来减少数据量的属性约简方法的实用性会受到限制。基于多个支持向量数据描述的定向距离特征提取方法能保留所有的特征数据,计算各类数据到超球体模型的距离,获得变换后的新特征。实验结果表示,该方法在保留原始特征信息的同时,达到约简数据、提高分类速度目的。