面向海量文本数据的多任务并行调度加载技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:a69ywc97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,网络信息安全管理迫切需要存储和管理海量的文本数据,需要高性能的海量文本数据加载和组织管理,因此,研究高性能的海量文本数据加载技术具有重要的理论意义和应用价值!网络信息安全管理中的海量文本数据具有如下特点:数据产生速度高、密度大、规模大且每天24小时不间断,其应用要求支持高效的全文检索。针对以上数据特点和应用需求,本文在以下几个方面对海量文本数据的加载技术进行了研究:1.研究了多流水线并行加载技术。首先,将需要加载的海量文本数据均衡划分为多个独立的数据集合,实现多个数据集合的并行加载。其次,对于每一个数据集合,充分挖掘其流水并行,将加载过程划分为多个可以流水并行执行的加载阶段,从而实现了高性能的多流水线并行加载。2.在流水线内部,利用Oracle10g提供的分区交换技术,在每一个分区的加载上进一步挖掘并行性,将加载划分为多个可以并行执行的子任务。针对这些子任务之间存在的约束关系以及多个分区可以并行加载的特点,提出了带约束关系的多任务并行调度算法,从而保障了细粒度并行化后的并行效果。3.针对计算资源、I/O资源分布不均衡以及服务器节点存在异构性的特点,提出了一种虚拟资源池技术,将每一个服务器按照其处理能力计算资源数量,并将计算出的资源加入资源池中,进行统一的分配与调度,从而实现异构环境下混合负载的均衡分布,达到资源的最大利用率。基于以上技术,研制了海量文本数据的多任务并行加载系统,第三方测试表明,该系统达到了极高的加载性能(加载峰值达200亿条记录/24小时,每条记录0.5KB)。目前该系统已经上线稳定运行了3个多月。
其他文献
吹灰器的投运可有效地防止或减轻受热面的积灰和结焦程度,提高锅炉运行的安全性和经济性,但是吹灰要消耗电能和高品质的蒸汽,还会加速受热面的磨损。本文通过吴泾第二发电有
目的:探讨NLRP3炎性小体介导线粒体损伤在非酒精性脂肪性肝炎(NASH)中的作用机制及线粒体靶向抗氧化肽SS-31的干预效果。方法:选择健康8周龄雄性C57BL/6J小鼠共30只,按随机数
马斯洛认为人的需要有五个层次,从低到高依次是生理需要、安全需要、社交需要、尊重需要和自我实现的需要。结合马斯洛需要层次理论和时代现状可以分析我国当代大学生的需求
基于水利工程测量中采用传统航空摄影测量存在像控点布设困难、影像间不易匹配、项目周期长等问题,针对水利水电常见的作业环境和激光点云数据自身的特点,结合乌龙山抽水蓄能