数据仓库环境中近似查询处理技术研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 5次 | 上传用户:long_teng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据仓库上的许多决策支持应用需要在大数据量上进行复杂的查询,由于大数据量以及查询的复杂性使得一个查询的执行通常需要很长时间,显然不能满足用户的需求,有时为了提高系统的响应时间,用户可以容忍一些查询结果的精度,因此近似查询处理技术成为有效解决这一问题的方法。数据仓库环境中的许多应用模式都对近似查询技术提出需求。例如,我们在做OLAP分析时,在一个钻取(drill-down)查询序列中,最初查询的目的就是为了决定我们真正感兴趣的数据,给这些查询提供快速、近似的查询结果可以使用户尽快找到有用的数据。在数据仓库上的许多决策支持应用中的查询目的着重于分析数据间的关联关系或发展趋势,有时在做聚集集查询时,对查询结果的要求并不需要精确到小数点。本文主要研究在数据仓库环境中的近似查询处理技术,根据数据仓库中数据和OLAP查询的特点,提出了基于聚类技术的近似查询处理方法(Cluster-based Approximate Query Processing method,简记为CAQP),其主要思想是对数据仓库中数据方体的数据进行分块,每块数据相当于多维空间中的一个点,采用聚类技术对数据方体中的这些数据块聚类,对于每个cluster,使用其中心点的值代表其中所有的数据块,对数据方体进行压缩,以后的查询操作则直接在压缩的数据结构上进行,减少查询处理时的I/O开销,从而提高查询性能。本文首先对聚类技术进行了深入的研究,提出了基于方格和密度的新聚类算法SCARG,它的基本思想是把整个数据空间划分成矩形区域,如果一个区域的密度大于一个阀值,则该区域是一个密集区域,把所有相关联的密集区域连接起来,构成一个Cluster。本文采用移动中心点的技术,对聚类结果进一步细化,提高聚类的精度。SCARG算法兼具了基于方格算法的处理速度和基于密度方法处理任意形状cluster的能力。本文还通过人工合成数据和Benchmark数据进行实验,与其它著名的聚类算法(DBSCAN,CLARANS)对比,验证了SCARG算法的有效性和性能。同时,本文还给出了SCARG算法的并行版本PSCARG,该算法充分利用硬件资源,进一步提高了对海量数据的处理能力。本文在深入研究了聚类技术的基础上,又对基于聚类的近似查询处理的关键技术进行研究,即对于数据仓库中的数据,如何采用聚类技术进行近似查询处理,主要包括数据的预处理、聚类的分层计算以及数据的增量维护算法等。针对数据仓库上的常用操作,本文设计了数据的存储结构,给出了在数据方体压缩结构上进行查询处理的算法,并给出了对查询结果集置信区间的估算方法,并通过实验与抽样技术对比,说明了CAQP方法的有效性和可扩展性。本文对近似扩展数据方体技术进行了研究。近似扩展数据方体是由2n-1个子方体组
其他文献
<正> 80年前,“五四”反帝爱国运动首先在北京爆发,并迅速波及全国。这一运动揭开了中国现代史的篇章,成为新民主主义革命的伟大开端。东北地区广大青年学生和各界群众,也以
劳动教育是大学生成长的重要基础,但高校劳动教育长期受到忽视。在大众创业和高考招生"双轨制"改革背景下,重视劳动教育,有利于提高高校人才培养质量。可以采取将劳动教育纳
彩色化是一种给黑白图像、电影或电视节目加上颜色的计算机辅助处理技术,在影视、医疗、太空探索及其它许多工业及科学领域有着广泛的应用,同时也一直是图像处理中一个活跃的、
<正>人工智能既是一种技术,也是一种思考方式。人工智能能够给人类带来的不会是灾难,而是会让我们世界变得更美好。一天晚上和一位国企领导聊天,讲到大家工作繁忙的事情,他说
药物分析实验教学是药物分析课程的重要组成部分,在培养学生的实验操作能力和创新能力中起到了非常重要的作用。本文根据多年的教学经验,从教学内容及考核方法等方面对药物分析
摘要:全球护理专业人员的紧缺及来华外籍人员数目的不断增长,给我国涉外护理专业的学生提供了更多的就业机会。如何提高学生的英语综合运用能力来满足未来职业的需要,除了课堂教学以外,形式多样的课外英语沙龙活动对于提高涉外护理专业学生的英语听说能力也非常关键。  关键词:涉外护理专业;英语沙龙;英语综合运用能力;英语活动  中图分类号:G712 文献标志码:A 文章编号:1674-9324(2017)15-
作为形式验证的重要方法,模型检验在VLSI/SOC设计的功能验证中发挥着越来越重要的作用。在模型检验中,设计被抽象为有限状态转移模型(或者Kripke结构),而所要验证的属性用时