论文部分内容阅读
数据挖掘研究如何从大量的数据中获取对决策有帮助的知识。随着证券市场的不断发展,在证券信息数据库中积累了大量的历史数据,如何充分利用这些数据探寻证券市场自身的运动规律,成为人们关心的问题。关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,其本质是从大量的数据中或对象间抽取关联性,进而揭示数据或对象间的依赖关系,根据这种依赖关系就可以从某一数据对象的信息来推断另一对象的信息。股票时间序列数据作为时间序列数据的一种,具有时间序列分析的一般特征,又具有其特殊性,如能在传统经济统计分析方法的基础上,运用先进的数据挖掘技术(如关联规则挖掘),对其进行探索性研究,挖掘出潜在的有价值的模式,显然在理论研究和实践指导上都具有重要的意义。本文探讨了上述问题的解决方案与实现技术,论文研究的主要内容与成果包括三个方面: 第一,详尽分析了数据挖掘技术在证券行业中的应用实际,参照典型的数据挖掘系统结构,提出了证券数据挖掘系统的体系结构模型,系统化研究了证券数据挖掘系统的基本过程和功能部件。 第二,讨论了关联规则挖掘的经典算法与时间序列分析的常用方法,针对股票时间序列数据的特殊性,提出了一种元规则指导的挖掘股票价格联动关联规则的算法,该算法是在经典Apriori算法的基础上完成的。算法首先对股票原始数据采用滑动时间窗口技术进行预处理,得到适合挖掘的事务集;然后使用SQL语言详细描述了关联规则的生成过程。 第三,探讨了基于Rough集的数据挖掘模型与数据约简算法,在此基础上,提出了一种基于Rough集的股票时间序列关联规则挖掘算法。算法处理过程包括时间序列数据预处理、数据约简和关联规则抽取三部分。所得到的关联规则可以用于预测股票时间序列在未来的行为,如行情的转变。