【摘 要】
:
随着云计算技术的进步和成熟,从小型初创企业到行业巨头都选择将业务部署到公有云平台上。公有云服务提供商在全球多个地区建立了数据中心为附近用户提供低时延的资源租赁服务。在这些跨域集群上部署的服务不断产生大量数据,分析这些数据对于公司或组织作出各类决策具有极高价值,这类横跨多个跨域数据中心进行数据分析的作业称为跨域数据处理。如何高效、低成本、及时地开展跨域数据处理变得至关重要。 跨域数据处理中的主要问
论文部分内容阅读
随着云计算技术的进步和成熟,从小型初创企业到行业巨头都选择将业务部署到公有云平台上。公有云服务提供商在全球多个地区建立了数据中心为附近用户提供低时延的资源租赁服务。在这些跨域集群上部署的服务不断产生大量数据,分析这些数据对于公司或组织作出各类决策具有极高价值,这类横跨多个跨域数据中心进行数据分析的作业称为跨域数据处理。如何高效、低成本、及时地开展跨域数据处理变得至关重要。
跨域数据处理中的主要问题和挑战在于跨域集群中的资源异构性,相关工作都假设各个数据中心内的资源则是无限同构的,只有网络带宽为跨域数据处理中的瓶颈。然而,对于从公有云服务提供商处租用有限的计算实例来完成数据分析任务的公司和组织来说,仅假设带宽为瓶颈是不适用的。此外,公有云用户的实例租用规模取决于自身的成本预算,他们往往需要细致地配置资源来节省支出、提高数据处理速度,进而最大化支出效益。
面对数据中心间的资源异构特性,指出了在跨域数据处理中对资源配置和任务调度进行联合优化的必要性。并对该调度联合优化问题进行了数学建模并证明了其NP难特性,之后设计了一个基于图匹配理论的近似算法解决该问题。理论分析推导出了所提算法的近似度和复杂度。为了验证所提出方案的具体性能,采用来自生产环境中的工作负载数据集和真实云服务配置进行了模拟实验,实验结果表明,在指定的参数下,所提出的近似算法可以综合考虑跨域集群中的资源异构性,同时对资源配置和任务调度做出联合优化。
其他文献
多模型数据库是近年来数据库领域里一个新的研究方向。OrientDB作为一种新兴的多模型数据库,默认的参数配置并不能使其达到最佳性能,需要针对实际应用负载对其参数配置进行调优,现有的单模型数据库上的参数配置调优经验无法直接迁移到OrientDB上,为了降低参数配置调优难度,提高OrientDB性能,充分发挥其潜能,亟需研究OrientDB参数配置自动调优技术。 论文研究OrientDB参数配置自动
为了减少数据处理过程中数据移动带来的开销,近数据处理(Near Data Processing, NDP)提出在存储数据的地方就近处理数据。分布式对象存储系统中的存储节点不仅能用于存储数据,还可以用于近数据处理。然而现有的面向存储系统的NDP方案并未能充分利用大量存储节点的资源来满足近数据处理的需求。 首先设计并实现了一个基于存储节点的本地近数据处理方案,接着复现了已有的异地近数据处理方案,通过
新兴的非易失性存储器件(NVM ,Non-volatile Memory)具有持久性、字节寻址、高集成度、低能耗、价格低廉等优点,相比于DRAM等传统存储器件具有更广阔的发展前景。但NVM器件单元一般仅能承受108~1012次写入,远小于传统DRAM器件的使用寿命。而应用负载的写分布不均更是加速了器件的老损,如何延长NVM器件的使用寿命是目前应用研究的难点之一。 针对现有NVM器件磨损均衡方案存
近年来,云盘凭借其高可用、高可靠、低成本以及可定制化的特点,在云块存储系统中的应用越来越广泛。云块存储系统后端有很多存储仓库,系统通过一定的分配策略将新云盘分配到最合适的仓库来供用户使用。随着云计算和互联网技术的快速发展,用户数据量显著增长,对云盘的分配策略带来了巨大的挑战。由于新云盘在分配前的负载信息未知,现有的云盘分配策略仅考虑存储容量维度,从而导致云块存储系统多维度资源(例如容量、IOPS、
随着多媒体数据的爆发式增长和云存储技术的迅猛发展,海量云端数据呈现出多模态混合并存的特性,如何以内容语义为标准对其进行智能化管理和跨模态分析成为传统云存储系统面临的新挑战。一方面,数据体量的增加和模态之间的差异导致有效数据的检索难度陡然提升。另一方面,现有存储系统中,数据无法建立以内容语义为标准的标签与关联。因此,根据用户需求和内容相关性智能化检索云端多模态数据是当下亟待解决的热点问题。 目前,
大脑作为中枢神经的主要组成部分,是生物体最复杂、最重要的器官之一,其结构和功能机制是当前脑科学研究领域的热点和难点。脑科学研究者们从高分辨生物图像中重建出神经元、血管、核团形态并进行计算和分析,由于形态学研究需要大量数据,数据共享变得尤为重要。然而,目前的数据共享方式局限于文件、文字、图片、视频等静态信息,需要用户下载或者拷贝数据并使用本地软件才可进行形态观察,浪费大量人力与物力。此外,现有的可视
为了处理大量的实时数据流,现有的分布式流处理系统遵循数据并行的原理,并利用不同的数据分区策略。其中一对多分区策略(例如,ApacheStorm中的广播分组)在各种大数据应用程序中起着至关重要的作用。对于一对多数据分区,上游处理实例将生成的元组发送到大量的下游并行处理实例。现有的分布式流处理系统通常基于面向实例的通信来实现一对多数据分区,其中上游实例将数据元组分别传输到不同的下游实例。但是,多个下游
网络功能虚拟化(Network Function Virtualization,NFV)通过虚拟化技术,将传统的基于专用硬件的网络功能,以软件的形式(虚拟网络功能)部署在通用服务器上,然后按需链接对应的虚拟网络功能形成服务功能链,对用户的请求进行服务。然而由于通用服务器的处理能力有限等原因,NFV的性能是一个亟待优化的问题。传统的基于各种先决条件和模型的性能优化方案,在实际网络环境中有很大的限制性
图计算在现代社会中的应用越来越广泛,例如在社交网络,生物信息学和信息网络中均有大量应用。由于图结构的不确定性、幂律分布以及复杂依赖关系等特性,图计算在使用冯·诺依曼体系结构的通用处理器(Central Processing Unit,CPU)上的处理效率远未达到理想水平。一方面,由于图的不规则性,导致内存访问的时间过长进而引发流水线插槽无法正常地回退,后续的指令无法正常进入流水线插槽执行。因此,每
由于某些突发事件,例如社交网络上的热门新闻或特价商品销售,而产生的突发流量可能会导致后端服务器严重的负载不均衡问题。迁移热数据作为实现负载均衡的标准方法,在处理这种意外的负载不平衡时遇到了挑战,因为迁移数据会进一步降低已经过载的服务器的处理速度。 网络功能虚拟化是一种新兴的技术,可以灵活地将网络功能以软件的方式部署在通用服务器上。PostMan基于网络功能虚拟化设计,作为热数据迁移的替代方法,可