论文部分内容阅读
数据仓库是90年代最受关注的发展领域之一,是旨在向决策者提供洁净、一致、相关数据的数据采集、管理、分析、挖掘技术,是新一代决策支持系统的有效解决方案。数据仓库采用统一的数据管理方式并向用户提供灵活多变的数据访问方式,使决策者可以从不同的角度了解,掌握企业自身现状,并对未来的发展做出预测。信息处理速度直接影响了数据仓库系统的实用性和处理能力。我们前期完成的HDC(HighwayDecision Center)系统解决了中级以下规模企事业单位的相应问题—数据仓库重要性能参数的关键因素。大型数据仓库的处理速度问题目前是制约其推广应用的关键所在,也是这一领域的一个重要研究课题,也正是我们当前工作的重点:在前期研究工作的基础上围绕提高大型数据仓库处理速度问题,建立改进的数据仓库系统模型和相关算法,开发出面向中级以上企事业单位的、具有数据挖掘和分析能力的大型数据仓库系统。 建立大型数据仓库所面临的关键问题,是如何妥善解决实际业务数据的大规模、海量特征所带来的处理速度和空间等问题,这也是当前挖掘技术研究必然面对的核心问题。 本研究的目的是设计并实现大型数据仓库系统中的分类数据挖掘工具——决策树分类器,主要工作是在综合了解现有决策树分类算法的研究情况的前提下,对决策树算法适应大规模数据集的问题进行探讨,力求设计出能较好地适应大规模数据的分类器算法。 论文通过对数据挖掘算法的研究,结合关系数据库和数据仓库的知识,阐述了数据挖掘适应大规模数据处理存在的主要问题、需解决的关键技术以及实现过程需采取的相关步骤,并尝试了将数据挖掘中的分类器算法与成熟的关系数据库管理系统相结合的情况。针对大数据量、多属性值的情况,对决策树分类器所需属性信息的求解提出了新的改进算法。 本论文的组织结构为:第一章为引言,作背景知识介绍, 摘要 阐述了数据挖掘在企业知识管理、泱策支持中的定位,以及数 据挖掘的结构、分类;第二章讲述了分类数据挖掘的思路,重 点讲解了泱策树分类器的构建、修剪,第三章针对大规模数据 对数据挖掘技术的影响做了讲解,提出了可采取的相应的处理 手段,以及与关系数据库、数据仓库结合的问题;第四章给出 了论文程序的框架、流程设计,以及几个关键问题的设计;第 五章对提出的设计进行简要的评述,做论文总结,并对进一步 的研究进行了规划。