论文部分内容阅读
进入互联网时代以来,随着计算机技术和网络技术的发展,越来越多的应用场景催生出海量的数据处理任务。云计算将大规模的计算资源通进行互联和整合,实现了一种弹性的服务模式,使得计算资源(计算、存储、网络)能够像公共基础设施(水、电)一样提供给用户,是大规模数据处理问题良好的解决方案。同时,软件技术的飞速发展使得计算机程序应用范围越来越广,功能越来越复杂,也使得程序产生错误的可能性大大提高。如何有效地发现程序的异常和错误并加以处理在实际工作中有着非常重要的意义。社交网络信息在用户行为研究和突发性事件分析领域有着重要的价值,然而社交网络信息的采集程序通常面临采集数据量大、运行时间长等问题。本文深入研究了云计算技术、程序状态监控和错误恢复相关理论,详细分析了采集程序的特点,设计并实现了一套私有云环境下的社交网络信息采集系统,并且实现了采集程序的状态监控和错误恢复。本文的主要工作包括:1.设计并实现了私有云环境下的社交网络信息采集系统。该系统提供通信服务、作业的执行与监控、作业的分派与调度、以及用户交互等主要功能。借助于私有云环境强大的计算能力,对采集作业进行分布式并行化处理,从而提高了采集作业的执行效率。2.实现了采集程序的状态监控、异常检测以及错误恢复。本文通过获取采集程序运行时的状态数据(系统资源使用情况和系统调用序列),并且将状态数据输入朴素贝叶斯分类器,实现了采集程序的状态监控和异常检测;同时,本文分析了采集程序的特点,结合应用级检查点技术,对于采集程序中关键的应用级数据进行检查点设置,实现了采集程序的错误恢复。3.对采集系统的通信服务功能、作业执行控制功能以及采集程序的异常检测、错误恢复机制进行了一系列测试。测试结果验证了采集系统具有足够的通信服务能力,验证了采集系统作业执行控制功能、采集程序异常检测机制以及错误恢复机制的正确性。