论文部分内容阅读
中间业务属于新兴的银行业务,主要是为客户提供多种金融服务。银行开办中间业务既可以树立良好的公众形象,也可以取得可观的经济效益,它是银行发展的重要发展方向。随着中间业务的应用越来越广泛,它所运行的单个主机承受的压力越来越大,故障发生的概率大大增加,与传统的单机系统相比,集群系统具有更高的可扩展性、更高的性能价格比和更高的可靠性,因而在银行业有广阔的应用前景。随着集群系统规模的不断扩大,集群系统内部发生故障的概率也会呈指数增长,对于运行时间较长的并行数值计算,如果在计算过程中,它所在的节点机发生故障,就会导致整个并行计算的彻底失败,故障之前的大量计算不可再用,程序不得不从头开始执行,为了避免因为单个故障导致整个并行计算失败而引起的计算资源上的大量浪费,就必须采用相应技术来进一步提高集群系统的容错性能。本文在LVS集群环境下采用检查点技术(Checkpointing)和进程迁移技术在很大程度上提高了集群系统容错性。 检查点技术的基本思想是在系统正常运行的时刻设置检查点,保存系统当前相关进程的信息,当系统发生故障时,将系统卷回(Rollback)到上一个检查点处重新执行,而不是从程序开始执行,节省了大量重复计算的时间。进程迁移技术主要思想是某一进程在某一节点上由于负载过重、通讯失败等原因崩溃时,通过保存进程的断点信息在另外的节点上重新启动,从而实现容错功能。本文针对提高系统可靠性的要求提出了LVS集群环境下的设置检查点和节点间进程迁移容错策略,并通过具体算法实现了这一方案,基本满足了系统容错的需求。针对节点机发生永久性点磁故障的可能,实现了检查点设置时的镜像存储技术,各节点除将其上进程的检查点存到本地磁盘外,还通过后台进程将这些检查点文件信息镜像到其它节点,并且在必要的时候启动进程迁移,使进程从失败的节点上转移到新的可用节点上重新执行。这样,此种方案不仅实现了对于集群并行计算机系统瞬间故障的恢复,而且也实现了对于集群并行计算机系统永久性故障的恢复,从而最终成功地实现了集群环境下的并行计算的高可靠性。 本文针对金融集群系统中间业务平台的主要业务流程进行设置检查点和启动进程迁移,在业务流程的某一环节出现故障时可以及时在源节点上重新启动或是迁移到其他可用的备份节点上重新启动,从而避免重复计算,浪费大量系统资源,把中间业务平台故障的损失最小化, 本文实现的进程检查点和进程迁移算法针对的是一般进程,与进程的任务和功能无关,结合这两种算法的容错解决方案可以很大程度上改善集群的可用性和可靠性,这已经通过中间业务仿真试验得到证明,它可以无缝移植到真正的金融集群系统中。