多数据库系统数据仓库集成技术应用研究

被引量 : 6次 | 上传用户:heyifeizhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息增长迅猛的今天,数据呈现出海量、分布和异构的特点,这使得集中式数据仓库在数据分析处理能力方面越来越有局限性。基于分布式数据仓库具有维护成本低、数据整合性强、高容错力、高效性和存储空间几乎不受限的特点,分布式数据仓库环境针对一些特殊情况更具优势,典型的例子有银行和电子商务平台。课题以一种SaaS模式的平台为研究背景,它的特点是面向具有相同业务模式的、多小微型企业。虽然企业用户的业务模式相同,但企业之间相互独立,各自的营销策略不尽相同。综上所述,平台采用多数据库系统方式,为每个企业用户创建独立的表空间,不同表空间中对应的业务表结构相同。为满足对企业自身和平台的不同数据分析需求,需要通过建立数据仓库来实现。通过对集中式和分布式两种不同数据仓库结构的分析与对比发现,分布式数据仓库结构的高容错能力和高存储性能更适于具有不同分析需求的平台应用。数据仓库集成技术研究的主要问题包括:逻辑模型设计、数据ETL过程、数据传输策略和元数据管理,因此解决上述问题是方案设计与实现的重点。结合研究背景,系统整体设计可划分为两部分:一是面向企业用户和后台管理员的数据分析部分;二是面向后台管理员的数据仓库管理部分。第一部分在电子商务云平台和云管理系统中都有体现,第二部分集成在云管理系统中。基于上述不同需求,两级数据仓库的逻辑模型从分析主题和粒度方面存在着差异,因此需要分别进行设计,最后通过开源分析展示工具向用户展示可读性强的数据分析结果。对于数据仓库管理部分,重点在于实现手动创建数据仓库的功能。对于数据处理部分,根据目标表的更新频率可将数据分为实时型和延迟型两种,从数据抽取、转换和传输三个方面进行分析并给出实现方法。针对数据传输策略进行研究,文章首先总结概括出上级轮循调度和下级数据驱动两种策略,通过时间对比发现数据驱动策略更适用于本平台。元数据管理模块同样是课题研究的重点。除对数据仓库建立和数据ETL过程产生的元数据进行管理外,文章创新性地针对逻辑模型完整性进行管理,并提供实现恢复维度表/事实表的功能。本文还针对数据驱动策略的时间效率问题进行了研究,通过模拟实际应用环境的实验,结合实验结果的对比分析得出利用Oracle11g提供的表分区技术能够提高数据传输效率的结论,为今后的深入优化奠定理论基础。
其他文献
核心素养框架下中职英语校本教材的开发应遵循什么原则?如何能够更好地体现学科素养、培养学科素养?针对这一系列问题,本文通过对校本教材目标、教材内容、教材使用等几个方
<正> 一中国是人类文明的发祥地之一。古老的中国文明,对整个人类社会的进步作出了贡献,程度不同地影响着周围国家和地区的历史进程,有时甚至使整个世界的历史为之改观。同时
Web应用已经融入了广大网民的日常生活,它们使用方式便捷而且功能丰富。Web2.0的出现,推动了互联网又一次革命性发展。随着Web2.0的发展,Web应用的安全漏洞问题正在逐渐由传
目前,生物制药产业更青睐于掌握生物工程“下游技术”的人才,而如何培养这类人才是一项值得研究和探索的教改课题。浙江理工大学生命科学学院生物制药专业通过“毕业设计(论
目的探讨Graves病中医证型及Graves病并发症与热休克蛋白70(HSP70)表达水平的关系,将HSP70表达水平作为Graves病辩证分型的客观指标之一,为早期发现和保护Graves病并发症易患
由于运营成本高,广告赢利模式不清晰和部分广告主对于视频网站的并不完全认同,视频网站遭遇发展瓶颈。小成本电影发展快、前景广,只是遇到了发行的困难。视频网站投资小成本
CD4+CD25+调节性T细胞是一个具有独特免疫调节功能的T细胞亚群,人体主要通过CD4+CD25+调节性T细胞以免疫负向调节的方式来抑制自身反应性T细胞的作用,减少免疫性疾病的发生,
随着电子商务的不断发展,对配送中心的自动化程度和作业能力的要求越来越高,而传统自动化程度较高的配送中心拣选系统在不断应用的过程中出现各自的弊端。针对传统配送中心拣
教师发展和课程改革一直是教改的重要议题。各中学响应教改,大搞素质教育,但私底下却是穿新鞋走老路。中学教师的压力非但丝毫未减,反而与日剧增,身心疲惫。人们对教师的评价