论文部分内容阅读
股市不仅是一国经济的重要组成部分,也是国民喜闻乐见的一种重要投资方式。而股市又因其特殊性受到国家政策、投资心理和宏观经济等等因素的影响,在股民看来是一个非常复杂且难以预测的系统。正因为股市的复杂不确定性的特点,导致对它的模型建立尤其困难。在股市发展的这些年,与日俱增的是越来越大的交易数据,如何在这些数据中寻找有用的信息成为金融工作者和广大股民迫切需要解决的问题。数据挖掘的出现破解了“知识匮乏”的窘境,帮助人们在海量的历史数据宝藏中找到隐含的、有趣的信息,所以在股票交易数据中使用该技术进行预测分析有理论上和实际上的重大意义[35]。本文采用算法研究和实例研究相结合的方法,提出了基于遗传算法获取易于理解的模糊规则方法应用于数据分类,实现对未来的数据进行分类预测。本文的主要工作包括:首先,根据模糊分类模型在处理分类问题上的优势,配合遗传算法的全局寻优能力,提出了在历史数据集上进行模糊规则提取的模型[31]。使用UCI机器学习库上的标准数据集(Car Evaluation)进行了实验,证明了其有效性。其次,探讨数据预处理过程中对连续值属性进行离散化处理的相关知识。针对股票数据各个属性为连续值的特点,提出了使用模糊聚类的思想,在连续属性上进行模糊划分,构建模糊子集,从而有利于遗传算法解空间的编码和构建模糊规则[29]。最后将本文建立的模糊分类模型应用于股票的数据挖掘中,选取“浦发银行”最近两年的483条历史交易指标数据做为数据集,其中除“涨跌幅”为类别属性外,其余30个为特征属性。为实现在股票数据集中提取模糊规则并验证其分类能力,将数据中的2/3用于训练,1/3用于验证。步骤遵循1.数据预处理:清除噪声数据,对特征属性和分类属性进行皮尔逊相关性分析,选取相关性高的属性作为特征属性,精简数据表。2.属性模糊划分:FCM划分。3利用改进的遗传算法进行模糊规则的编码、交叉、变异等操作,经进化产生适应度高的模糊规则个体进而组成模糊规则库[19]。