数据仓库实体化视图联机一致性维护研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:velvet_flower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库是市场激烈竞争的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按决策主题的需要重新进行组织,以达到有效决策支持的目标。自从它上世纪90年代初被提出以来,迄今已经形成潮流。在美国,数据仓库已成为紧跟Internet之后处于第二位的技术热点。 作为数据仓库技术研究的热点之一,实体化视图的联机维护是数据仓库联机维护技术中的一个关键技术。它是指,在数据仓库为用户提供服务的同时,当数据库中的原始数据发生改变时,系统能实时地将这种变化反映到数据仓库中,使相应的实体化视图得到及时的刷新。 现有的数据仓库产品采用的都是定时脱机维护策略:系统先搜集记录,但不立刻加入数据仓库,而是采用定时技术对数据仓库进行增量更新,期间数据仓库被禁止使用。所以,许多采用现有数据仓库产品的公司都是利用夜晚对数据仓库进行刷新维护,以保证其在正常工作时间内能够读取数据仓库内的数据。但是,这种维护方式面临3个重要的问题: 第一,随着全球经济一体化的推进,跨地区、甚至于跨国企业不断涌现。对于这些企业来说,由于时区的原因,专门对系统进行更新维护的“夜晚”将越来越难以确定,从而可能影响到企业数据的及时传送。 第二,随着应用的不断深入,当数据量非常大的时候,这种维护方式所用的时间也会越来越长。同时,由于定时技术在刷新系统期间,对数据仓库是禁止使用的,而系统的维护工作必须在次日清晨用户开始使用数据仓库之前完成,因此时间是一个必须认真考虑的限制因素。 第三,定时技术容易使信息过时。在一些对实时性要求比较高的关键任务中,如战场决策等,这种脱机维护方式是不能够被接受的。 因此,开展24(小时)×7(天)的数据仓库实体化视图联机维护工作模式研究,是一个有着实际意义的课题。 对于单数据源单视图环境下的数据仓库实体化视图的联机维护问题,论文通过引入数据扩展模式的概念,对数据源的修改信息进行分类记录;论文采用版本控制、补偿思想和应答机制来协调数据源与数据仓库间的数据更新,提出了相应维护算法Glide;该算法分为Glide-DW和Glide-DB两部分,分别在数据仓库端和源数据库端执行,以保证数据仓库实体化视图数据与源的一致性;对于一些必须通过访问源数据库才能给出的OLAP查询等,算法Glide也保证了它们的一致性;算法修正了前人算法中的一些不足,并提高了算法的健壮程度和源数据库端CPU的利用率;论文指出,算法Glide是完全一致收敛的,并给出了严格的数学证明;且通过一个示例说明了该算法在实际中的具体运用;对于包含源关系关键属性的数据仓库实体化视图定义,论文介绍了针对性维护算法ECA-Key. 多数据源联接的数据仓库实体化视图的一致性维护,是该论文研究的第二个问题。其问题的难点在于,由于业务分布、介质及网络通信等方面的原因,数据仓库收到的查询计算结果,和它向各数据源发出的计算查询顺序并不一致,从而引起更新维护后数据的不一致。对于包含源关系关键属性的数据仓库实体化视图定义,论文介绍了针对性维护算法Strobe及其改进算法Strobe*,并给出算法Strobe*强一致收敛的理论证明。对于一般情景下的多源维护,论文提出了一个强一致普适性算法M-Glide,它是算法Glide的一个本质推广;算法引入动作列表(actionlist)概念,用于记录数据仓库端发出的操作序列集,并通过它保证维护提交的动作顺序和集成器收到的消息的顺序一致,从而确保当提交维护事务后数据仓库视图值与源的一致性;文章同时给出了一个说明示例。 粒度是数据仓库的重要概念,在数据仓库中,多重粒度是必不可少的。如何进行粒度视图,即基本方体与聚合格间的维护,同时保证它们之间,以及它们与数据源之间的数据一致性,是论文研究的另外两个问题。论文引入了视图更新表(ViewUpdateTable)的概念,以用于记录各数据源记录变化对数据仓库视图的影响,于是当视图更新表判定当返回的查询结果,已能引起各数据仓库视图间的数据达到一致状态时,将由合并进程生成一个统一的维护事务向数据仓库提交;论文介绍了多视图维护算法SPA及PA,分别用于处理单一更新与集中处理的不同情况;算法保证当数据源发生变化时,多视图的维护能够确保视图数据与源之间,同时各视图之间的数据一致性。论文指出,简单画笔算法SPA是完全一致收敛的,而画笔算法PA是强一致收敛。 对于带有聚集函数的视图维护问题,其实际背景是多维数据库的立方体概念。数据仓库的物理结构一般采用星型结构的关系数据库。星型结构由事实表和维表组成,多个维表之间形成多维数据结构。星型结构的数据体现了空间的多维立方体,聚合格即是事实表与相应维表之间的聚集联接。如何维护这些聚合格,可以看作是多视图维护的一个特例。与多视图维护不同的是,这些聚合格带有聚集函数定义,同时引发它们更新维护的原因在于基本方体的变化。论文在前人研究的基础上,提出了改进算法Refresh*,研究当基本方体发生增删变化时,聚合格如何反映这种的变化。算法给出了聚合格维护的一个具体方法,与原有的算法相比,算法Refresh*在时间复杂度上有很大的改进。 论文还提出了三层数据仓库结构,和与之相应的集成部件结构。同时,基于论文对数据仓库更新维护上所作研究得到的各个算法,设计并分析了集成部件各模块的相应功能及其之间的关系,提出了实现集成部件的解决方案,并给出了一个仿真测试系统。实验表明,论文所提出的算法是正确的,系统设计是可行的,效果较为良好。 论文最后对研究工作进行了总结。
其他文献
随着经济建设的加快,钢板被广泛应用于汽车制造业、机械制造业、航空航天、石油化工、船舶等领域。钢板表面缺陷的多少是衡量其质量优劣的重要指标之一,钢板表面缺陷不仅会对
基于CCD(Charge-coupled Device)的温度测量系统由于成本低、响应快、能够提供温度场信息等特点,已成为近年来高温检测领域的研究热点。但是现有的基于CCD的近红外热像仪由于
连铸作为钢铁生产流程中承上启下的关键环节,是当前我国钢铁生产结构调整与技术升级战略中值得重点关注的核心环节。结晶器是连续铸钢中的铸坯成型设备,被称为连铸机的“心脏
该文以辽河油田输油管道自动监控系统项目为依托,研究开发了一种以智能调节器、工业PC和局域网技术组成的新一代监控系统.论文讨论了系统的总体构成方案和功能,重点研究了现
本文着重对基于小波变换算法及人眼视觉特性的图像压缩及其计算机实现进行了研究。包含的内容主要有以下几方面:论文首先介绍了课题的研究背景和图像压缩方面的有关情况,包括图
近年来,计算机视觉技术已成为智能研究领域的一项重要研究课题。本论文研究了该领域内的一个重要组成部分——图像分割与图像的三维几何信息的提取。 首先,论文介绍了图像分
视频会议系统是计算机网络、数据库、多媒体及通信技术的不断发展的产物,它突破了与会者的地域限制,使人们足不出户就可与远在天涯的朋友展开讨论,举行远程会议。目前,视频会议系
论文就现场总线技术、监控组态技术、现场监控系统以及监控软件的设计等诸多方面进行了分析论述.系统总体设计采用全分布式结构,选用先进的现场智能仪表和PLC实现低层功能,并
"虚拟企业"(Virtual Enterprise)理念由美国里海(Lehigh)大学的亚柯卡(Iacocca)研究所在《21世纪制造业发展战略》报告中首次提出.由于虚拟企业可以对市场急剧变化适时调整战
该文试图建立起与实际环境更加贴近的库存模型,并提供了几种研究解决问题的方法与手段,为弥补库存控制理论的研究与库存实践间的差距作了初步尝试.全文内容安排如下:第一章简