【摘 要】
:
随着移动互联设备的普及和卫星定位系统的发展,海量的空间数据也随之产生,大规模空间数据中蕴含着丰富的价值,空间数据的分析挖掘是一项意义重大的工作。空间连接是空间数据分析的一个基本算子,具有广泛的应用场景,然而目前对该运算的分布式实现并不是很完善。分布式空间连接一般使用分而治之的思想来实现,先将整个空间范围划分成多个小范围的空间分区,然后对每个空间分区内的数据,利用单机的空间连接算法在分布式集群上并行
论文部分内容阅读
随着移动互联设备的普及和卫星定位系统的发展,海量的空间数据也随之产生,大规模空间数据中蕴含着丰富的价值,空间数据的分析挖掘是一项意义重大的工作。空间连接是空间数据分析的一个基本算子,具有广泛的应用场景,然而目前对该运算的分布式实现并不是很完善。分布式空间连接一般使用分而治之的思想来实现,先将整个空间范围划分成多个小范围的空间分区,然后对每个空间分区内的数据,利用单机的空间连接算法在分布式集群上并行地计算。但是现有技术对空间范围的选择过大造成过多无效计算,空间分区的划分没有兼顾两个数据集的空间分布从而引发负载均衡问题,在并行计算的实现细节上也存在诸多需要优化的地方,另外对空间连接的种类和空间数据类型的支持也不够完善。基于此,本文对分布式空间连接进行了全面详细的研究,论文的主要工作内容包括:(1)提出了一种分布式空间距离连接算法。首先缩小了全局域的选取范围,高效地过滤掉了对最终结果没有贡献的无效数据。其次,兼顾两个数据集的空间分布,利用两个数据集的样本对全局域进行划分,得到两份空间分区并进行合并生成一个兼顾了两个数据集空间分布的空间分区,实现分布式计算中的负载均衡。另外,对空间距离自连接的情况做了特殊优化。最后使用公开的全球空间数据做了对比实验,实验结果表明本文提出的空间距离连接算法的性能优于现有的技术。(2)提出了一种分布式空间k最近邻连接算法。首先给出了分布式空间k最近邻连接的两轮计算方法,第一轮计算得到空间对象的最小扩展距离,第二轮计算得到精确解。然后对两轮计算中存在的不足进行分析并给出了合理的优化方案,大大减少了计算过程中网络间的数据传输和不必要的计算。最后基于公开的全球空间数据做了对比实验,实验结果表明本文的空间k最近邻算法的性能优于现有技术,提出的优化策略效果明显,且本文实现的k最近邻连接支持所有的空间数据类型,具有很强的通用性。(3)基于Spark分布式计算框架实现了提出的算法,并将其封装成API。首先利用Spark提供的接口实现了本文提出的分布式空间连接算法。然后将本文的代码实现封装成API供第三方使用,包括基于Spark Core的RDD形式的封装和基于Spark SQL的SQL语句形式的封装。
其他文献
随着视频监控技术的飞速发展和视频监控设备的大批量部署,如何利用监控系统的海量视频数据逐渐得到关注。由于技术的限制,以往对监控视频的使用只限于视频保存和查看。伴随着深度学习技术在计算机视觉领域的迅猛发展和硬件设备计算能力的显著提升,以往一些难以实现的需求在新技术和新设备的加持下,有了实现的前景和可能。本文将聚焦收银台场景下监控视频的应用,在过去,管理者为了监督收银台店员的服务规范,通常利用“暗访”或
由于REBa2Cu3O7-δ(RE:Y、Gd等稀土元素)超导涂层导体在液氮温区具有高的临界电流密度和上临界磁场以及优异的力学性能,REBCO涂层导体即第二代高温超导带材在电力能源、交通运输、生物医学、航天发展和国防军事等领域有广泛的应用价值。在超导材料的诸多应用中,超导磁体是目前最大的工程应用。受加工工艺限制,现行带材长度无法满足线圈绕制的需求。同时为满足不同磁场形状和场强及闭环电流模式等,超导磁
高甘油三酯血症(hypertriglyceridemia,HTG)是指空腹血清甘油三酯(triglyceride,TG)水平高于1.7 mmol/L,其中血清TG水平介于1.7~11.4 mmol/L之间为中度HTG,TG水平高于11.4 mmol/L为重度HTG。近年来,研究表明HTG是诱发急性胰腺炎(acute pancreatitis,AP)的一种危险因素,并且血清TG水平越高,AP的发病率
固定辙叉由于其本身的结构不平顺,列车通过时,必将引起较大的冲击力,同时辙叉内部会产生复杂的内力作用,在受到连续循环复杂应力作用下便会产生滚动接触疲劳裂纹,从而影响其服役寿命。为进一步明确固定辙叉滚动接触疲劳裂纹的萌生位置及疲劳裂纹萌生寿命,探究不同因素对裂纹萌生的影响规律,本文以LM车轮通过9号固定辙叉区为研究对象,运用ANSYS/LS-DYNA建立了具有真实几何形状的三维轮轨瞬态滚动接触有限元模
水性环氧树脂涂料以其加工的便利性以及低VOC排放等优点被广泛应用于轨道交通领域的各个方面。但是,与溶剂型涂料相比,其在力学性能、耐磨性能、耐腐蚀性能等方面仍存在较大差距,导致其在复杂、苛刻环境下应用受限。水环境下乳液分散相对较差以及固化过程中水分蒸发缓慢使涂料基体缺陷增多、致密度下降,是导致上述问题的主要原因。近年来国内外科研工作者对水性环氧树脂的改性进行了深入研究。其中,高分子聚合物共混改性和填
近年来,随着我国人、车、路等交通要素的高位增长,道路交通安全问题也愈发的引发关注,可以有效改善道路交通安全问题的智能车辆已成为研究热点,如何使车辆智能的做出决策控制是智能车辆技术的研究重点。本文从智能车辆转向决策控制技术出发,提出了一种基于深度学习的智能车辆转向决策方法。本文的主要研究内容如下:首先,本文设计一种智能车辆转向决策方法,该方法将车辆转向决策问题转化为已知环境信息和车辆转向状态信息来预
得益于Docker容器轻量级虚拟化的优点,越来越多的企业将Docker集群作为主要的任务执行环境。通常Docker集群中的各个节点上会部署很多不同类型的应用容器来执行不同的任务,当大量任务同时运行和调度时,有资源抢占、负载过度等异常情况出现的可能性,进而导致集群负载不均衡。在这种情况下,对集群运行状态的监控是非常有必要的。对于Docker容器的原生集群Docker Swarm,它虽然有默认的容器调
量子比特是量子信息处理的基本单元。基于约瑟夫森结的超导量子电路是实现量子比特的最有潜力的物理系统之一,通常工作在微波频段。而可见光子是实现量子信息远距离传输的良好载体。因此,在未来的量子网络中,要实现两者的兼容需要微波与光波光子之间的高效率转换。目前实现微波-光波双向频率转换的物理系统主要包括原子系综,磁振子,稀土掺杂固体,电光材料和光机械系统等。另一方面,波导量子电动力学(波导QED)系统可以实
随着减振器逐步国产化的要求和不断优化车辆动力学性能的需求,有必要对抗蛇行减振器建立力学模型,研究其内部结构、工作原理及阻尼特性,为抗蛇行减振器的结构设计、试验调试提供理论指导。阀片式抗蛇行减振器相比滑阀式结构,具有成本低廉、便于通过增加或减少阀片数量调节阻尼阀节流特性的优点,本文主要针对阀片式抗蛇行减振器开展研究,主要工作和结论如下:(1)基于某型阀片式抗蛇行减振器展开研究,根据阻尼阀片具有承受间