基于数据块采样的PostgreSQL统计信息估算方法的研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:fostervfr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机硬件、软件技术的飞速发展和计算机系统在各行各业的广泛应用,数据已经成为各种机构的宝贵资源,数据库系统对于当今科研部门、政府机关、企事业单位等来说都是至关重要的。随着时间的推移,数据库中的数据量日益增长,而数据库管理系统的一个重要功能就是将建立于其上的信息系统的性能维持在一个可接受的水平上,查询优化器就是实现这一功能的重要的数据库系统组件。查询优化器分为基于代价和基于规则的优化器。当今通用的商业数据库的查询优化器多为基于代价的优化器。基于代价的优化器相对基于规则的优化器的优势就在于它能根据数据库对象各自特定的信息估算查询代价,以此来选择最优的查询执行路径,而这些数据库对象信息就是数据库管理系统收集的统计信息。因此,数据库统计信息估算的准确度对查询代价估算的结果有着显著的影响,也对优化器的质量有着实质性的影响。收集统计信息可以通过精确计算和采样估算两种方式,前者收集的统计信息准确度高,但计算代价大,特别是分析大对象时容易给系统造成负担;后者收集的统计信息准确度相对前者较低,但计算代价小,系统负担小,即使分析的是大对象。本文主要基于开源数据库管理系统PostgreSQL,分析其收集数据库统计信息与查询优化器相关源代码,重点讨论直方图与Distinct值这两种对估算查询代价极其重要的统计信息的收集,提出在PostgreSQL中使用计算与估算两种方法收集统计信息。在采样估算中使用基于数据块的采样,并且采用基于直方图的交叉验证算法将数据块采样样本的数据偏差缩小至预定阈值范围之内,然后在此样本上建立等高直方图或基于值的直方图,存储于系统表中,供查询优化器使用。在估算Distinct值时,由于数据分布偏差容易造成数据块样本的偏差,因此引入混合式估算法解决由于f1值(样本中只出现一次的值的个数)损失造成的估算误差。最后在Linux AS3和PostgreSQL8.1环境下通过实验证明,本文提出的方案适合于PostgreSQL数据库,并且在保证估算准确度的基础上提高了统计信息收集的效率。
其他文献
信息时代对军事变革提出了新的要求和挑战。很多传统的军事办公方式和理念已经跟不上信息化建设的需求。虽然军内外科研人员已经在军网普及、大型应用软件开发方面做了大量的
无线传感器网络(Wireless Sensor Network,WSN)是由大量传感器节点通过无线自组织的方式构成的网络。它结合了计算,通信,传感器三项技术,在森林防火,环境检测,以及军工等各个领域都
3Tnet(3 Terabit Network)作为国家新建的“高性能宽带信息网”,是一个处于实验阶段的网络。其架构和支持的主要业务都和传统的网络有很大区别;其新的组网设备的稳定性,网络的性能,对业务的支持情况等都需要试验证明。本论文论述的平台是为完成3Tnet在浙江大学的大规模并发实验所建设的网络监测和服务支持系统。 平台设计成基于Web接口的网络管理的体系结构。本文首先介绍了该体系结构,
寻路算法在人工智能领域里处于基础性的地位,很多相关应用都需要优良的寻路算法的支持。在地图类游戏中,无论是玩家控制角色还是电脑控制角色都需要从地图上一个位置转移到另一
梭子蟹是我国重要水产养殖品种之一。传统的梭子蟹养殖以池塘散养为主,养成成活率低,单位面积养殖效益不高。而随着中国工业化和城市化进程的发展,水产养殖面积正在逐年萎缩,迫使
随着VPN技术的广泛应用,VPN系统在保障信息安全方面发挥了重要作用。但是VPN也暴露了一系列不足,网络传输性能就是其中重要问题之一。VPN的网络传输性能很大程度上受限于网络链
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效的利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。近年来,越来越多的应用促使了数据流的产生
随着电子信息的发展,人们对专业信息的检索需求越来越强烈。通用的基于浏览和字面匹配的检索工具已经不能为人们提供比较准确的搜索结果,依靠行业元数据和知识库的垂直搜索技术
分离关注点原则是软件工程中最要的原则之一,然而随着软件复杂度的不断提高,传统的分离关注点技术只允许按照一种方式分解系统越来越显出了弊端,越来越多的关注点得不到有效分离
生物网络中基于拓扑特性识别关键基因对于深入了解生物体的致病机制至关重要。针对不完整相互作用网络(如Human网络)中,通过网络中心性识别关键基因效率低的问题,本文从多层