基于数据仓库的大规模数据集分类数据挖掘研究与设计

来源 :青岛大学 | 被引量 : 0次 | 上传用户:cwfml9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库是90年代最受关注的发展领域之一,是旨在向决策者提供洁净、一致、相关数据的数据采集、管理、分析、挖掘技术,是新一代决策支持系统的有效解决方案。数据仓库采用统一的数据管理方式并向用户提供灵活多变的数据访问方式,使决策者可以从不同的角度了解,掌握企业自身现状,并对未来的发展做出预测。信息处理速度直接影响了数据仓库系统的实用性和处理能力。我们前期完成的HDC(HighwayDecision Center)系统解决了中级以下规模企事业单位的相应问题—数据仓库重要性能参数的关键因素。大型数据仓库的处理速度问题目前是制约其推广应用的关键所在,也是这一领域的一个重要研究课题,也正是我们当前工作的重点:在前期研究工作的基础上围绕提高大型数据仓库处理速度问题,建立改进的数据仓库系统模型和相关算法,开发出面向中级以上企事业单位的、具有数据挖掘和分析能力的大型数据仓库系统。 建立大型数据仓库所面临的关键问题,是如何妥善解决实际业务数据的大规模、海量特征所带来的处理速度和空间等问题,这也是当前挖掘技术研究必然面对的核心问题。 本研究的目的是设计并实现大型数据仓库系统中的分类数据挖掘工具——决策树分类器,主要工作是在综合了解现有决策树分类算法的研究情况的前提下,对决策树算法适应大规模数据集的问题进行探讨,力求设计出能较好地适应大规模数据的分类器算法。 论文通过对数据挖掘算法的研究,结合关系数据库和数据仓库的知识,阐述了数据挖掘适应大规模数据处理存在的主要问题、需解决的关键技术以及实现过程需采取的相关步骤,并尝试了将数据挖掘中的分类器算法与成熟的关系数据库管理系统相结合的情况。针对大数据量、多属性值的情况,对决策树分类器所需属性信息的求解提出了新的改进算法。 本论文的组织结构为:第一章为引言,作背景知识介绍, 摘要 阐述了数据挖掘在企业知识管理、泱策支持中的定位,以及数 据挖掘的结构、分类;第二章讲述了分类数据挖掘的思路,重 点讲解了泱策树分类器的构建、修剪,第三章针对大规模数据 对数据挖掘技术的影响做了讲解,提出了可采取的相应的处理 手段,以及与关系数据库、数据仓库结合的问题;第四章给出 了论文程序的框架、流程设计,以及几个关键问题的设计;第 五章对提出的设计进行简要的评述,做论文总结,并对进一步 的研究进行了规划。
其他文献
信息系统的安全问题是国家安全、国防安全的重要前提,作为信息系统“底座”的操作系统的安全性研究已被提高到了战略地位。本文首先介绍了计算机系统安全的基本概念,较为详细地
目前,基于ARM平台的嵌入式监管系统逐渐流行起来,无论在物流行业还是在仓储管理行业它都发挥了重要作用,尤其是带反馈机制和自我调节能力的智能化监管系统,成为当今追求的热点。
该文介绍了DL3000前置系统的总体设计,有所侧重地论述了双前置机容错机制的设计和实现.对前置系统特别是其中双前置机容错系统所涉及的下列主要实现技术进行了深入探讨,对系
随着现代化信息技术的飞速发展和电梯企业规模的迅速扩大,电梯企业在产品设计中的数据管理变得愈加重要,尤其是需求变更已逐渐成为产品设计中的关键一环。需求变更在信息系统
容迟网络指那些因为能量管理、节点移动、调度等原因而发生频繁中断、甚至长时间处于无法连接状态的一类网络,它涵盖了因为节点移动而处于间歇式连通的WSN、周期性连通的卫星
多数据库系统是在不同成员系统之间实现数据共享和互操作的理想途径.在数据库系统中,数据都是结构化的;而在文件系统中,存在大量如web网页的半结构化数据.在充分吸收国内外数
该论文根据当前GPS及WebGIS技术的展趋势,针对当今的不同通信方式,提出了"基于GPS和WebGIS的位置服务"的概念,并在论文中给出了实现这一概念的总体方案,同时也描述了利用网站
制造资源是指企业在制造产品过程中所用到的设备、工装夹具、刀具及人力资源的总称。目前,国际化市场竞争越来越激烈,使我国相当多的制造企业遇到了前所未有的挑战。为了摆脱这一困境,运用现代信息技术改造和提升制造业,将信息化和工业化结合,是符合我国制造业国情的一条发展之路.制造资源管理是制造企业生产管理的重要环节,它是指对制造资源进行系统的管理和调度。制造资源的有效管理能够显著提高企业现有资源利用率,减少资
随着网络的普及率,网上应用的种类和重要性日益增加,保障计算机安全越来越重要也越来越具有挑战性。现在的各种静态安全技术,如防火墙、数据加密等都比较成熟了。但这还不能适应
该文根据工业以大网、嵌入式INTERNET技术和组态软件的研究,进行基于TCP/IP的分布式监控系统的设计.随着TCP/IP协议进入工业控制领域,将INFRANET提高到与INTRANET在同一网络