海量数据的划分和查询方法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:ok695304259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络数据、生产数据等持续增加,形成大量的数据,这些数据给存储和查询带来严峻的挑战。但可凭借数据划分方法将海量数据分块分布存储在多个机器中,这样既能能解决单机器的存储容量上限问题,也能通过先筛选分块来缩小查询目标数据的范围,还可利用多机器协同查询以提高数据查询的效率。  本文为进行数据分块存储和查询需要做一些初始化工作,例如基于机器性能和数据集特点,按机器个数和经验设置数据区间;选择被划分数据对应的直角坐标到极坐标的转化公式;设计数据区间索引表,索引表不仅是数据划分的依据,而且是查询数据时数据筛选的依据,为了提高加权和 Top-K查询的数据区间筛选效率,设计线索树结构的索引表,为了提高一般查询的数据区间筛选效率,设计简单树结构的索引表。本文基于直角坐标到极坐标的转化公式来计算待划分的数据相应的角度和距离值,并与存储在索引表中的表示预设数据区间情况的角度和距离范围比较,然后存储在与此数据区间相对应的机器文件中。从而实现大数据量的文件以小数据量的文件的方式存储,即实现了数据的划分。随着被划分的数据增多,当某个数据区间对应的文件存储的数据量过大时,则采用数据区间分裂方法,把该数据区间划分成几份新的数据区间,并将原数据区间对应的文件中存储的数据重新按角度和距离再次进行划分到该分区下属的新数据区内对应的文件中,同时修改数据区间索引表的分区信息。此外,基于本文的数据划分存储方法,给出加权和 Top-K和一般查询的方法。先通过索引表找到所属的数据区间所在的文件,再利用MapReduce任务对涉及到的文件中的数据进行并行计算和查询,实现从通过数据筛选缩小查询范围和并行化加速查询两个方面提高海量数据查询效率。  为验证对大量数据进行数据划分存储能提高数据查询的效率,本文分别用查找不经过划分存储数据和经过划分存储数据的时间进行对比实验,结果表明本文采用的数据划分方法较好的提高了海量数据查询的效率。
其他文献
Internet与生俱来的复杂性、异构性、动态性以及庞大的规模都给网络模拟研究工作带来了巨大挑战。在网络模拟研究中,路由策略是一个关键的环节之一,路由策略的好坏直接关系到
随着计算机技术的飞速发展,人机交互方式正逐渐发生改变,强调“以人为本”、“自然和谐”的智能人机交互技术得到了广泛关注。智能人机交互要求计算机不仅要能听、看、说,还
在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决
特征选择,是在利用机器学习算法构建模型前,对原始数据的预处理过程,是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算,一方面,很容易陷入“维度灾难”的困境;另
无线网络近年来的快速发展,所采用的网络技术日益复杂,网络设备也日趋多样化。随着新技术设备的投入及其应用的增加,维护和管理工作已越来越繁重。再者网络规模相当庞大,设备
目前,手机短信息已成为继Internet之后的“第五媒体”,成为人们日常交流的主要方式之一。短信息在给人们带来极大方便的同时,也产生了一定的负面影响。恶意使用者利用短信平
物联网时代的到来被称为世界信息产业发展的第三次浪潮。“智慧地球”战略的提出以期通过覆盖海量的智能传感器,在物物相联的概念下一切物体都可以被感知,让整个地球形成可被感
目前关于数据挖掘的研究很多,主要是对挖掘算法的研究,而对挖掘过程管理的研究则相对较少,而数据挖掘过程又是需要多次反复的多阶段处理过程,为了有效地管理和控制数据挖掘各个阶
伴随着计算机、网络通信等技术的迅猛发展,数字媒体技术也取得了长足进步,同时给人们的生活方式和经济发展模式带来了重大变革。几乎每时每刻都有大量的数字媒体产品通过网络进
手语是一种动作语言,通过一连串手势的运动并附以适当的面部表情或身体躯干姿势来表达语意,是聋哑人的第一自然语言。目前中国标准手语的推广程度不高,内部仍存在着地域差异