论文部分内容阅读
随着我国金融市场的不断发展,越来越多的投资者将目光投向了股票市场。如何科学合理地进行股票的分析,选择优质股票是每一个投资者所要解决的首要问题。从基本面而言,公司的财务数据对股票的选择尤为重要。但在选股时,优质股票的数目远远小于普通股票即数据集是不平衡的,并且公司的财务数据往往是高维的,含有一些不相关特征,因此对数据进行平衡化处理以及进行特征选择是很有必要的。本文对原有的过抽样方法borderline-SMOTE算法与AD AS YN算法加以创新,提出一种混合式的BASMOTE算法,在borderline-SMOTE基础上引入ADASYN算法自适应的思想,根据周围样本的分布自适应的合成新的少数类样本,在容易分类的地方合成较少的样本,在较难分类的地方合成较多的样本。从而获得更加有效合理的新的少数类样本。其次提出一种混合式的特征选择方法HPMG,对三种过滤式特征选择方法中引入封装式特征选择的思想,使用分类器的训练准确率作为每种过滤式特征选择方法确定特征个数的依据,并使用集成算法中的简单投票算法确定最终结果。本文利用上市A股中某一行业的股票财务数据,使用SVM作为分类器,分别把BASMOTE算法、混合式特征选择方法HPMG,与几种原有的过抽样方法以及特征选择方法作对比。验证了 BASMOTE算法与混合式特征选择方法HPMG优于已有的过抽样方法以及特征选择方法。