论文部分内容阅读
随着IT与通信行业的飞速发展,全球数据以爆炸性速度增长,大数据时代应运而生。大数据的主流处理技术——分布式系统,更是近年来最热门的研究技术之一。本文正是基于此背景下,以Windows操作系统下的通用PC机集群作为硬件平台,设计了基于数据处理任务的分布式协同处理系统。根据计算服务器的操作方式区分,本文提出了两种分布式处理系统设计模式:基于数据库任务管理的“主动模式”与基于客户机/服务器(C/S)架构的“被动模式”。两种模式系统均基于有向无环图(DAG图)、分布式文件系统以及数据库等技术实现。“主动模式”分布式处理系统以数据库作为管理核心,将计算任务/模块作为日志存放在数据库记录中,计算服务器通过争抢任务的形式从数据库中取出数据处理模块完成处理。本文提出了四种计算模块调度策略,并在“主动模式”系统中针对简单的权重优先调度策略与计算任务优先调度策略进行了实现。根据实际运行效果,可知简单的权重优先调度策略对于全局模块处理效率提升明显,而计算任务优先调度策略对于高时序性数据处理任务有更好的处理效果。“被动模式”分布式处理系统基于客户机/服务器架构,系统中监控服务器对计算任务/模块以及在线计算服务器进行管理,根据计算服务器状态及简单的权重优先调度策略分配计算任务/模块,计算服务器被动接收指令完成相应处理。本文就“被动模式”系统的通信模块、数据结构与算法以及数据库三方面进行了技术分析,并证明了在计算任务数量和规模复杂性变化时,“被动模式”系统均有较好的效率提升表现。理论上两种模式系统的计算服务器集群规模均有一定的可扩展性,在计算服务器规模小于50时其可扩展性较好,而当计算服务器数量大于100后其效率提升逐渐趋于平缓。并且,两种模式系统在实际的信号处理应用中均表现有一定的效率提升。对比两种模式的分布式处理系统,“主动模式”系统在运行效率和实现代价上优于“被动模式”系统,而在安全性与鲁棒性、可扩展性上则逊于“被动模式”系统。