论文部分内容阅读
在税务系统实现数据仓库并以此为数据基础,实现联机分析和基于历史数据的数据挖掘系统具有重要和广泛的应用前景,但目前这方面的应用还在初步阶段。本文以税收征管业务为背景,针对数据仓库建设、联机分析和数据挖掘的各个阶段,深入研究了数据仓库的创建方法、联机分析方法与技术、关联规则数据挖掘方法,并根据税务系统业务特点,对现有的维间关联规则挖掘算法进行了改进。
本文在简要介绍数据仓库的体系结构以及创建数据仓库的各阶段任务的基础上,结合信息包的数据仓库创建方法,提出“搭积木”的方法来逐步完成各主题的扩充和数据仓库的创建工作。
本文详细分析了实现联机分析的各种方法,针对不同的使用者的差异情况,实现了对税金主题的联机查询和分析。
然后在简要介绍关联规则数据挖掘的基础上,提出了维间关联规则挖掘在税务系统中实现的具体思想,通过对Apriori 算法的修改,提出了改进的维间关联规则挖掘算法并在税务系统中应用,选取了几个有代表性的维进行了维间关联规则挖掘的试验,本方法同样适合对其它维间的关联挖掘。
最后本文提出了一个系统实现的架构。本文所研究的内容在税务系统的数据仓库创建工作和OLAP 的分析工作中已经得到了应用,关联规则挖掘方面的工作为税务系统数据挖掘的进一步应用建立了基础。对其它领域的类似应用也有一定的参考和指导意义。