多维联机分析处理中的高效查询关键方法研究

来源 :合肥工业大学 | 被引量 : 5次 | 上传用户:dykonka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机分析处理(OLAP)是商务智能(BI)的关键技术之一,已成为人们获取知识和辅助决策的重要工具。然而,由信息化程度的提高所引起的数据量增大和数据维度数增多,以及决策支持所要求的高效率等特点,都促使着OLAP高效查询技术的不断发展和进步。因此,在多维海量数据环境中,如何提高OLAP查询的效率,缩短查询时间,以达到辅助决策的目的,就成为研究工作的焦点。本文以实现多维OLAP高效查询为目标,对提高OLAP查询效率的若干关键方法进行了研究。为了充分发挥数据分析的功能,本文借鉴了联机分析挖掘(OLAM)的概念,将数据挖掘、统计分析方法运用到研究过程中,设计了一个集成了数据挖掘、统计分析方法的OLAP查询框架,以提高OLAP查询效率。在这个框架中,对提高OLAP查询效率的三项关键技术进行了研究:由于数据立方体是进行OLAP查询的数据基础,其构建方法直接影响OLAP查询的效率,因此本文对其物化方法进行了研究;OLAP近似查询方法能够在查询时间与查询精度之间实现很好的折衷,有利于OLAP查询效率的显著提升,因此也成为本文研究的主要内容之一;OLAP查询维度推荐也是本文的研究内容之一,它以辅助决策为出发点,为用户提供与查询目标密切相关的维度,以缩短OLAP查询时间。具体来说,本文针对上述OLAP高效查询方法,进行了以下研究:(1)本文将数据挖掘的思想引入到提高OLAP查询效率的研究过程中。将关联规则挖掘技术中经典Apriori理论的思想运用于OLAP查询的数据基础——数据立方体的构建过程中,并提出用户兴趣度的概念,以此作为约束条件,以用户使用系统进行查询的实际情况为依据,设计了数据立方体部分物化的冰山立方体构建算法,以及增量式更新冰山立方体的方法。该方法通过对数据方体进行有选择的物化,使得系统在处理用户查询时不需通过即时计算。同时,由于考虑了用户查询的实际情况,该方法在大大节省数据存储空间的同时,使得此数据立方体支持用户查询的程度保持在较高水平,进一步提高了OLAP查询的效率。(2)本文首次将统计方法中的Copula理论引入到OLAP近似查询建模过程中,扩大了Copula理论的应用领域,针对连续维度建立了OLAP范围查询模型。本文所建立的模型提取了大量数据中的概要信息,只需要存储相关样本及参数信息,大大节省了数据的存储空间,且在保证查询准确率的前提下大大提高了OLAP查询效率。为了提升OLAP近似查询模型的精确度,本文采取了一系列措施。首先,在对各个维度样本数据进行边缘分布拟合时,为了使拟合效果更准确,本文采用了非参数核密度估计方法代替分布已知的参数方法对样本数据进行拟合,将模型的实用性推广到大部分数据;其次,本文充分考虑了各维度之间可能存在相关性的情况,使用Copula函数对联合分布进行拟合,提取维度间的相依结构,使分布拟合的结果更精确。同时,模型支持在连续维度上直接进行OLAP查询,当进行钻取操作时不需要事先设定维度的层次,大大增加了OLAP查询的灵活性。(3)针对维度较高的OLAP数据集,本文将适用于OLAP数据立方体的基于“C藤”结构的Pair Copula方法引入到OLAP近似查询的建模过程中,在使用Copula函数的基础上进一步考虑了不同观察维度与度量维度之间相关性的差异,根据样本数据的特征自由选取和构造其相关结构,使得模型拟合结果的精确度得到进一步提升,并使得模型适用于高维数据环境。(4)在将数据挖掘思想引入OLAP查询的研究过程中,本文还针对高维OLAP数据集,将变量选择方法运用到OLAP查询维度推荐上。由于高维OLAP数据集具有所含信息量大、不同维度间具有不同程度的相关性等特点,因此一定程度上影响了用户OLAP查询的效率,从而干扰了用户决策的效率和准确性。针对数据中存在对查询目标而言的冗余维度,本文设计了一种支持OLAP查询维度推荐的维度选择算法。该算法根据用户提供的决策属性分类信息来有针对性地去除与决策目标不相关的维度,并且同时找出具有线性相关性的维度集合,在有效识别观察维度之间的相关关系的同时提取与用户查询目标关联最紧密的维度集合,从而大大提高用户的查询与决策效率。
其他文献
目的:探讨胃大部切除术后胃瘫综合征的疗效分析。方法:对我院2000年10月~2008年10月行胃大部切除术后发生胃瘫综合征23例患者进行综合治疗。结果:经治疗后19例4周内胃功能恢复,4例
素质教育是一个亟待深入研究的理论问题 ,也是一项复杂而重大的社会系统工程。当前我国在实现从应试教育到素质教育转轨的过程中 ,在理论认识上出现了形式化、片面化、短期化
研究中国手语的识别技术,就是为了把聋人使用的手语通过计算机自动、高效地完成机器翻译,从而实现手语与自然语音的无障碍交流。这种方式便于聋人融入社会,有利于他们与周围
目的:探讨肝源性糖尿病患者的临床观察与护理效果。方法:将104例肝源性糖尿病患者随机分为观察组和对照组各52例。两组患者住院后都行常规护理,包括控制血糖、药物干预、健康教
目的建立一种快速准确的分光光度法测定食品中人参皂苷的含量。方法采用不同前处理方式对不同类型的样品进行预处理,应用分光光度法测定人参皂苷的含量。结果人参皂苷在0μg~