论文部分内容阅读
当今社会,面对“信息爆炸”的挑战,数据仓库和数据挖掘技术应运而生,并得以迅速发展,越来越显示出其强大的生命力。目前,数据挖掘技术已经在如市场分析和预测、生产过程优化、气象预报等分析与预测方面取得了一定的成功,但尚未涉及到彩票行业的分析与预测。针对以上空白,本文将新兴的数据挖掘技术与国内新兴的彩票行业相结合,让最新技术在最新的行业中发挥作用,这是本文的创新点之一。 本文首先分析了足球彩票行业的领域现状,然后对数据仓库与数据挖掘技术进行了系统地说明,接着按照数据仓库的设计过程建立了足球彩票数据仓库。在建立数据仓库之后,又对传统的数据挖掘算法Apriori算法进行了改进,提出了Improve算法。该算法首先要将数据预处理,用于生成频繁1项集并保留其相关数据,之后检验1项集数量是否足够进行2项集挖掘;然后进行大循环,不断由k项集挖掘k+1项集,并产生k+1项集的规则。在这个过程中进行剪枝,找出并删除那些不可能生成更高维频繁项集的频繁项集;返回值R为所有规则集。改进的算法相对原有的算法除了具有效率、预测的准确度上的优势外,还具有方便拓展、有利集成、适用于并行计算等特点,这是本文的创新点之二。随后,在从挖掘效率和挖掘准确率两方面对Improve算法进行实验分析并证明其先进性后,又对今后的研究工作提出了新的要求。虽然该系统是模拟性质的,但它仍不失具有实际的指导意义和应用价值。