基于内存的轻量级分布式计算引擎的设计与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:tt7506
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着网络技术的发展,网络用户数量在日益增长。用户在上网的过程中会产生用户行为数据,这其中包括浏览网页,网络购物,观看视频等一系列的信息。数以亿计的用户产生的数据量无疑是巨大的。存储和维护这些数据给我们带来了挑战,同时这些海量的用户行为数据也给我们带来了新时代的机遇。将海量的用户数据进行数据挖掘,并向用户提供定向推荐、实时推送成为了一种可盈利的商业模式。为了从海量数据中得到精确的用户分类信息,需要对数据进行多次迭代的计算。因此如何实现一个可支持高速迭代计算的分布式引擎是当前的问题之一。本文设计和实现了一个基于内存的轻量级分布式计算引擎,并对整个系统的整体架构和实现细节进行全方面的阐述。系统充分利用分布式计算的特点,将数据散列到不同的机器上,减轻每台机器的负担并且提高计算的速度。为了支持多次迭代的计算,将每次计算的数据保存在内存中而不是在磁盘上,减少了每次迭代磁盘I/O的时间,提高了计算的效率。在整个计算过程开始之前,系统生成本次计算的执行计划图,计划图保存了数据之间的转换关系。当数据由于意外故障丢失,系统可以根据计划图重新恢复丢失的数据。系统同时对用户提供了一套编程接口,数据的分布式和容错恢复对用户是完全透明的。系统同时将一个分布式计算任务的控制节点和计算执行节点都纳入统一的资源管理。系统引入负载均衡,实时监控每个节点的运行情况,根据节点的运行状况,下发计算任务。在实现方面,模块通信选型Epoll驱动满足异步事件到达的处理。在多路网络I/O通信的情况下依然可以高效并发的处理报文。此外引入线程池模型处理文件I/O操作,数据库操作,在进行相对慢速的磁盘操作的同时不降低高速的网络I/O的处理效率。本文最后对系统进行了全方面的测试,结果表明在功能上能够为一些分布式计算算法提供高效的运行支撑和容错处理。在性能上跟传统的分布式计算引擎相比有较大的改善。此外,在同时承载多个业务系统时,和当代主流的基于内存的分布式计算引擎相比有一定性能提升
其他文献
伴随着通信产业的不断发展,今天的移动终端已经由原来单一的通话功能向话音、数据、图像综合的方向演变。像可拍照手机、摄像手机、彩屏手机、音乐手机、游戏手机等都是迎合受
随着Internet/Web技术的快速普及和迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于,因特网信
安全协议是用来保证电子商务等网络通信安全的重要工具。形式化方法是当今分析安全协议的一类主流方法,但是不同的形式化方法各有优劣,且应用形式化方法研究安全协议在理论和实
随着我国教育产业化的飞速发展,社会对教育水平和教学管理软硬件的要求日益提高,尤其是对学校的教学管理提出了更多的要求。为了及时响应教师和学生的需求,为师生提供相关服务,营
数据挖掘技术是目前解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,已经广泛应用于科研、商业、金融和电信等领域。计算机信息技术特别是数据库在医疗机
随着信息技术的不断发展,计算机网络逐渐渗透到了国民经济的各个行业,计算机网络系统的安全已经成为经济社会发展不可忽视的一个方面。在众多的网络安全技术中,入侵检测技术由于
本文的撰写是建立在一个实际项目的基础之上,即辽宁国税综合数据平台系统。 税务信息化经过多年的建设积累了大量基层税收数据,但是数据零散,集中整合度低,不能适应税收决策和
Internet网络带宽的增加和多种DDoS攻击黑客工具的不断发布,使得DDoS攻击的实施越来越容易,DDoS攻击事件发生数量已成上升趋势,而SYNFlood攻击则成为各种DDoS攻击的首选手段。出
复杂场景下运动目标检测和跟踪技术成为视频处理分析领域中重要的研究热点之一,也是智能视频监控需要解决的核心技术之一,涉及到计算机视觉技术、图像处理技术、模式识别等多方
随着社会和科技的进步,计算机网络技术、通讯技术、视频处理技术得到了长足的发展,视频监控技术从早期的模拟视频监控技术发展到现在的网络化远程视频监控技术,视频监控系统