论文部分内容阅读
数据仓库技术是信息领域中近年来出现并发展迅速的一种计算机技术,它可以对原始的操作数据进行各种处理,转换成有用信息,充分利用这些信息,分析并做出策略性的决策。数据挖掘技术是以数据库或数据仓库中存储的数据为基础,采用决策树、关联规则、聚类、神经网络等方法,从中提取有趣的知识、规律或高层信息。 作为传统数据处理密集型行业之一的保险业,随着业务的增长,面对大量历史数据和当前事务数据,构建数据仓库平台,挖掘其中蕴含的信息,进行信息分析和决策支持将成为信息化管理的主要组成步骤。 本文首先系统地介绍了数据仓库技术的基本概念、体系结构、物理数据库的设计以及基于数据仓库的数据挖掘算法和联机分析处理理论。通过对上述技术的研究,提出了河北人保数据仓库系统。该系统包括数据仓库模型构建,数据集成和数据挖掘算法应用。其中数据仓库模型从概念模型、逻辑模型和物理模型三个方面进行讨论。由于数据质量是数据仓库实施中的“瓶颈”,详细介绍了在数据集成中发现的问题以及解决方案。在数据挖掘算法应用部分,提出采用决策树来解决对客户行为分类问题和关联规则挖掘来解决交叉销售问题的方法。对于关联规则的增量更新问题,提出采用中间表中存储原数据集项集和新数据集项集的集合,然后在此集合上使用最小支持度进行剪枝,找到频繁集。这种方法无须对原数据集进行搜索,提高了算法的执行效率。