论文部分内容阅读
随着互联网的发展及数字化时代的来临,产生了越来越多的高维数据。尽管这些数据非常值得学习和研究,但维数的增加意味着要花费更多的时间去计算,并且在机器学习中,容易产生过拟合现象。在处理分类问题的过程中,特征选择被证明可以有效的应对高维数据。特征选择致力于去除数据的不相关或多余特征。通过寻找原问题的一个特征子集,特征选择可以有效地降低数据的维数。从而,在机器学习过程中,非常值得去研究如何进行特征选择。近年来,虽然许多特征选择方法被提出,但很少有人考虑特征之间的相关性。本文提出了一种新的特征选择方法,以特征间的相关性作为特征选择的依据,考虑应用单一特征等价的代替其他与之相关的特征,从而达到寻找特征子集,降低数据维数的目的。实验结果表明,此方法在保持分类正确率的前提下,可以有效减少特征的个数。此外,由于各种客观原因,数据中不可避免出现噪音数据,从而给机器学习带来困难,影响机器学习的结果。模糊支持向量机,作为传统支持向量机的一种改进模型,提出了隶属度的概念。通过赋予正常的样本点较高的隶属度,相反的,赋予噪音较低的隶属度,可以有效的降低噪音对机器学习的影响。本文提出应用将样本点到超平面间距离与样本点密度相结合的方法,计算模型的隶属度。实验结果表明,此方法可以有效提高支持向量机分类的正确率。