论文部分内容阅读
随着互联网和数据存储技术的发展和普及,数据密集型应用已经广泛的应用于天气预报、天体物理、生物信息等科学计算领域。这种数据密集型应用程序处理的数据量十分巨大,通常达TB甚至PB级,并且应用程序数据之间都存在着一定的关联关系,通过使用工作流技术,能够实现让各种具有复杂计算特性的任务自动化执行,使用工作流技术的数据密集型应用又称为科学工作流。云计算作为典型的应用分布式网络的计算技术之一,能够以相对便宜的软硬件设施为科学工作流应用提供执行所需的存储和计算资源,为其提供一种全新的廉价部署和执行方案。将科学工作流应用部署在云计算环境中,一方面可以节约大量的执行成本,同时也为分布在世界各地通过Internet相互协作的科研人员提供了一种资源共享与合作研究的平台。然而云计算系统在动态的为科学工作流应用提供其执行所需的高性能计算资源和海量存储空间的同时也给用户的隐私保护与信息资产安全带来非常大的冲击与挑战。Gartner在2012年关于云计算的调查结果表明,70%以上接受调查的企业CTO认为近期不考虑应用云计算的主要原因为云计算存在数据安全性与隐私性的保护隐患。此外,数据是有重量的,当用户将数据存在云计算服务商提供的远程服务器中,数据就变得异常繁重而难以迁移,数据迁移成本比存储数据成本昂贵的多。为了适应企业的安全性和迁移需求,云计算演变为公有云、私有云和混合云。公有云具备更好的扩展性和灵活性,适合部署开放性的应用程序;而私有云更加安全而且便于控制,适合部署关键数据和敏感数据。混合云是新的云计算架构,是公有云计算和私有云计算的混合,具备扩展性和安全性双重特性的云计算模式。可以根据不同的应用需求以及成本约束的考虑,灵活的在公共云和私有云之间选择或并用,来构建具有高可用性、动态扩展性、高安全性的计算中心和资源中心,形成混合云的应用模式。公有云是一种将IT的相关资源以服务的方式提供给用户使用,用户通过付费按需获取的计算模式。部署在混合云环境中的科学工作流应用,其执行过程是混合云环境中公有云和私有云协作的过程,该过程中跨数据中心数据移动难以避免,给部署在混合云环境中的科学工作流带来了2个问题:(1)跨数据中心数据移动会产生很长的时间开销;(2)跨数据中心数据移动会产生很高的传输费用。本文针对上述两个问题分别提出了两种不同的数据布局策略。针对传输时间问题,传统数据布局方法采用负载均衡划分模型,划分数据关联矩阵,布局数据集。然而没有考虑平衡负载引起的传输时间开销。我们提出了一种新型的基于数据关联破坏度的划分模型,基于该模型提出了一种优化传输时间的数据布局方法,该方法包含2个算法:初始阶段静态布局算法和运行阶段动态布局算法。实验表明,本文算法能够有效的降低科学工作流执行时跨数据中心数据传输时间。针对传输费用问题,目前学者通常是从单个数据密集型应用的角度研究降低数据传输费用。然而工作流系统一般都包含多个工作流,并且工作流相互之间共享数据。传统单工作流数据布局优化算法对多工作流优化效果有限。我们将从全局的角度建立基于多科学工作流数据关联图的传输费用模型,研究基于二进制粒子群算法BPSO (Binary Particle Swarm Optimization)的数据布局优化策略,从而减少对云计算传输资源的使用费用。本文通过对混合云计算模式进行模拟,建立混合云数据中心模拟环境,并对本文提出的两种数据布局策略与其相似的数据布局策略分别在数据传输时间,数据传输费用等方面进行对比实验。实验结果显示,与其同类的数据布局策略对比可以发现,本文所提出的两种数据布局策略具有更好的综合性能,不仅对混合云环境下科学工作流的传输时间、传输费用的优化研究具有重要意义,同时也适于混合云环境中的其它数据密集型应用。本文的研究能够大幅度降低云服务商的运行成本,从而为企业提供廉价、安全、高效的计算和存储服务。