数据流的分布并行n-of-N Skyline查询处理技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：zeone

【摘要】

：

数据流作为一种新的数据存在形式,广泛应用于诸如金融数据分析、传感器网络、记忆位置的服务等现实应用中。数据流查询处理已经成为当前大数据环境下数据库研究领域的一个热

【作者】

：

魏炜

【机构】

：

国防科学技术大学

【出处】

：

国防科学技术大学

【发表日期】

：

2015年期

【关键词】

：

数据流 n-of-N Skyline 并行查询负载均衡弹性可扩展

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据流作为一种新的数据存在形式,广泛应用于诸如金融数据分析、传感器网络、记忆位置的服务等现实应用中。数据流查询处理已经成为当前大数据环境下数据库研究领域的一个热点问题。伴随着分布式计算环境的兴起,分布并行化已经成为当前数据流研究领域的一个重要的发展趋势,实现流处理的分布并行化不仅能够满足用户日益增长的查询实时性需求,还能够克服单机集中式查询处理方法所遇到的计算能力不足等问题。数据流n-of-N Skyline查询是一种新型的数据流Skyline查询。其查询形式相对于一般数据流Skyline查询更加复杂,对计算节点性能要求更高。而且当数据流工作负载变化过大时,现有的单机集中式查询方法因计算能力限制难以提供更高的查询效率与灵活性。因此,针对数据流n-of-N Skyline查询,对其进行并行化处理研究具有很重要现实意义。针对已有的单机集中式n-of-N Skyline查询算法无法满足更高的查询实时性的问题,提出了一种适用于n-of-N Skyline查询的并行查询模型nNPM,并基于此模型提出了一种分布并行n-of-N Skyline查询算法PnNS。在PnNS算法中,每个并行计算节点只需维护局部滑动子窗口数据信息,而且并行计算节点之间不需要进行交互通信就可完成计算任务,结果输出在下一级节点实现。实验结果表明,当数据流工作负载较大时,相比于传统单机集中式查询算法,PnNS算法的查询效率随着并行度的增加接近于线性增长;当滑动窗口规模、数据维度等发生改变时,PnNS算法依然能够保持较好的并行查询处理性能。针对并行n-of-N Skyline查询过程中由于并行计算节点性能的差异而引起的负载不均衡问题,提出了一种基于滑动窗口调整的动态负载均衡算法LBA。该算法采用一种基于簇的子窗口划分策略,并且通过划分反馈模块实时调整并行计算节点维护的子窗口大小,进而达到在并行计算节点之间调整负载的目的。实验结果表明,LBA算法能够有效改善并行计算节点之间的负载均衡性,使节点处理延迟标准偏差下降36%;当滑动窗口大小、并行计算节点个数、数据维度发生改变时,LBA算法依然能够使分布并行n-of-N Skyline查询的并行计算节点间保持较好的负载均衡性。针对并行n-of-N Skyline查询过程中系统整体负载过大或过小所造成的查询计算节点资源供应不足或过剩问题,提出了一种弹性可扩展的并行查询模型EPM,并基于该模型提出了一种弹性节点资源配置算法ENPA。在ENPA算法所采用的弹性协议中,将数据流工作负载抖动性以及计算节点自身处理延迟考虑在内,综合整体负载状况进行并行计算节点群的扩展或收缩。实验结果表明,ENPA能够弹性地对并行计算节点规模进行调整以匹配实时工作负载,保证系统高性价比。

其他文献

高等学校图书管理系统的设计与实现

近年来，随着高等教育事业的推动，高等院校的信息化发展来到了一个前所未有的时代，但是随着高校图书资源的规模的不断扩大，图书管理人员需要花费大量的人力、物力、财力及时整理图

学位

高等学校图书管理系统JSP技术B/S架构功能模块

基于CORBA规范的新型事件机制的设计与实现

现有的事件机制多采用传统客户机朋艮务器结构,两层结构虽然给人们带来了相当的灵活性,但也逐渐暴露出其客户端和服务器端负担过重的现象,并且其系统拓展性也较差。随着网络

学位

网络事件机制事件通道CORBA事件服务

查询目的提取的研究

随着互联网的发展,人们在习惯于通过互联网来获取信息的同时,也发现由于互联网中信息量的庞大及其无组织性,如何高效地取得有用的信息成为了一个亟待解决的问题。搜索引擎的

学位

搜索引擎查询目的网页文本分类潜在语义分析用户兴趣

多站点CSPS系统基于学习技术的look-ahead控制研究

在现实世界的一些生产加工企业中，存在一类由生产加工站作为加工主体的生产线，其中，加工站由传送带输送工件进行加工，这样的一类系统称为传送带给料生产加工站(Conveyor-serviced

学位

生产加工企业生产加工站传送带多站点CSPS系统look-ahead控制

基于关键词的Web文档自动分类算法研究

随着网络的发展,电子文档大量涌现,Web文档自动分类以迅速、快捷、客观等手工分类无可比拟的优势,使得其实用价值得到充分体现。Web文档分类越来越受到人们的重视,在网络信息

学位

文档关键词语义相似度聚类算法知网拓扑网络图中文分词

P2P网络的信任机制研究

随着Internet的迅速发展和普及，Peer-to-Peer(P2P)网络技术得到了快速发展。在应用领域，P2P系统弥补了传统C/S系统的不足，但同时给网络带来了许多额外的安全隐患，信任机制是P2P网

学位

对等网络数据传输网络安全信任模型

基于隐马尔科夫模型的人群异常场景检测

监控设备的普及催生了大量的监控数据,使得对监控视频中的异常进行人工检测变得非常困难。为了减轻人力资源和经济负担,同时提高异常检测的准确率,人们不断寻求对视频当中的

学位

人群场景异常检测刚体隐马尔科夫模型异常分类

基于轮廓特征的二维碎片拼合技术研究

基于轮廓特征的碎片拼合技术是计算机视觉、图像分析及模式识别中的重要课题,可以应用于很多领域,比如考古学、文物复原及分子生物学等,属于形状匹配也称曲线匹配的范畴。本

学位

二维碎片拼合轮廓弧长与弦长比特征点特征表示匹配

面向特定主题的网页敏感内容提取关键技术研究

作为信息学、网络工程学的重要支撑技术,网络爬虫在信息时代的作用日益凸显,它的相关技术发展受到广泛关注。同时,网络爬虫技术也是检索网络敏感信息的主要手段之一,国内外众

学位

主题网络爬虫网页内容提取关键词分析链接分析Scrapy爬虫框架

用Web Services实施企业应用集成的方法研究

当前企业应用在更大范围内不断增加、企业信息化步伐不断加快,大多数企业的各部门都已经按照其职能和需求的不同开发和实施了各自独立的应用系统,但是由于实现信息化过程中的

学位

Web Services企业应用集成加密技术排队论

数据流的分布并行n-of-N Skyline查询处理技术研究

其他学术论文