论文部分内容阅读
数据立方体是数据仓库和联机分析处理的核心概念。为提高联机分析处理系统的查询性能,通常需要预先计算并保存数据立方体,然而完全的预计算必将导致数据立方体体积的爆炸。因此,降低磁盘空间成本和提高查询性能成为数据立方体研究两个重要却又相互制约的目标。为从根本上解决这些问题,需要探索有效的数据立方体组织方法。本文首先提出基于语义压缩的同基类数据立方体概念,它将由相同基本元组集聚集而来的立方体元组归为一类,称之为同基类,该类中所有立方体元组的聚集值定然相同,仅从每类中选出一个代表进行实际物理存储,从而大大降低数据立方体的空间开销。另一方面,因为类中元组都是基于相同的基本元组集在不同的维集上进行聚集计算,所以这些元组也保存了原有数据立方体的语义信息。在此基础上,将同基类数据立方体中的元组按树状结构组织成同基类方体树,不但进一步减少了数据立方体的物理存储空间,也提高了其点查询性能。当前数据立方体在处理一个区域查询时,都是将其分解成大量点查询,对各点进行点查询后再汇总聚集得到结果,而一个区域查询分解成的点查询个数是查询条件中各维区间分解点数目的乘积,从而导致区域查询效率较低。对此,本文提出一种基于集合运算的数据立方体结构,通过索引和集合的交并运算来加快区域查询,在查询条件为区域的维上,先对区间中各维值的基本元组索引集进行并运算,然后一次性的进行所有维集合的交运算,从而在保持较少的磁盘空间和较好的点查询响应速度的情况下,改善了区域查询的性能。