论文部分内容阅读
20世纪80年代中期,数据仓库之父Bill Inmon在其《Building The Data Warehouse》一书中定义了数据仓库的概念。数据仓库的概念一经出现,就首先被应用于电信、银行、保险等主要传统数据处理密集型行业,国外许多大型的数据仓库在1996-1997年建立。随着数据仓库的建立,在企业中逐渐形成了DB-DW两层体系结构。但随着企业对数据处理的多层次要求的出现,原有的两层结构并不能很好地满足这样的需求。Bill Inmon在随后的系列书籍《Building The Operational Data Store》中又提出了ODS的概念,用来解决企业日常的分析决策和管理的要求,ODS的引入形成了DB-ODS-DW三层体系结构。中国人寿保险公司出于行业竞争的压力和保监会的业务要求,打算建立统计信息系统,并考虑使用数据仓库技术来实现。针对保监会和中国人寿保险公司的业务需求,并考虑到中国人寿保险公司目前的IT应用现状,本文论述了在对统计信息系统进行架构设计时需要考虑的问题及解决方案,并最终设计了基于DB-ODS-DW的系统架构。在这样的系统架构下,ODS层的数据抽取和装载占据了十分重要的地位。因此,本文通过对ODS数据增量更新策略的研究,论述了在大数据量的情况下,如何对ODS中不同的数据进行增量更新。特别针对ODS中的实视图,提出采用DROV(Differential Re-Evaluation Of Views)算法进行增量更新,并结合中国人寿保险公司统计信息系统项目的实例,在省级ODS系统上进行了实现,取得了较好的更新效率。