大规模高速网络数据分析系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:tyhz3030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的快速发展,用户数量和应用的种类、规模以近乎指数规律增长。在这种急剧膨胀的驱使下,网络规模不断扩大,网络流量不断增长,网络结构和网络行为越来越复杂,网络运行也越来越容易出现技术性问题。目前,研究人员主要通过网络测量,获取网络中各类应用的流量差异,以及影响网络性能和服务质量的因素,从中探寻这一庞大非线性复杂系统所表现的未知行为,进而为技术和管理策略的改进提供参考。被动测量由于对网络运行无干扰,测量数据能最真实地反映网络行为,所以被广泛应用于网络测量工作。但是,对于主干速率在1Gbps以上的大规模高速网络,海量数据的采集、整理、分析处理等都是被动测量需要解决的难题。 本论文的研究内容和相关工作,着重于大规模高速网络被动测量这一背景下,与测量和网络行为分析密切相关的海量数据采集后的归并整理和分析处理这两大难点。论文将详细探讨多链路高速主干信道报文数据的归并整理策略,研究和实现一个适应大规模高速网络海量数据处理需求的IPTrace数据分析系统-IP TraceAnalysis System(IPTAS),并利用1PTAS对采集自CERNET江苏省网边界信道的Trace进行分析。 论文首先研究在CERNET江苏省网边界信道上采集的并行报文数据的归并整理策略。论文介绍了2005年11月10日利用Watcher1.1系统采集的数据特征,并针对数据中的存在问题,详细分析了产生原因。为了将数据整理成可在研究中使用的Trace,论文设计了时戳乱序报文的排序算法和并行报文数据的多路归并算法。在此基础上设计了两个数据整理工具,并利用它们,在计算机集群系统上完成了数据的排序和归并。论文还研究了Watcher1.1系统内采集器之间的时钟相对漂移对Trace中报文时戳的影响。 然后,论文设计和实现IP Trace数据分析系统(IPTAS)。论文分析了系统的需求,提出IPTAS应该具有支持良好扩展性的体系结构,以支持在使用系统的过程中只经过简易步骤就可以扩展系统的数据分析功能。论文根据系统7个方面的需求概要设计了IPTAS应该具有的功能,对IPTAS中的关键问题进行了详细研究,并给出具体的解决方案。在解决了关键问题之后,论文依据功能设计和关键问题研究中设计的体系结构、模型与过程,实现了IPTAS,得到一个基于网络的、支持多用户的IP Trace数据分析系统。 最后,论文对IPTAS进行测试。测试表明,符合规范的数据分析算法能够经过简易的过程成功扩展到系统框架之下,并成功进行数据分析,相关功能达到了预期目标。论文利用IPTAS分析一个Trace,并根据分析结果总结了CERNET报文在时间和空间上的一些分布特性。
其他文献
随着数字电视、网络视频流等技术的飞速发展和广泛应用,对数字多媒体信号的存储,处理以及传输的要求变得越来越高,视频压缩技术逐渐成为媒体、广播的最基本组成部分。另一方面,近
语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。然而其实现面临着语义互联、规范组织和智能聚合等理论和技术障碍。为了
本论文是对作者毕业课题研究的一次全面论述和介绍,论文首先介绍了课题的研究背景以及论文的结构。Internet已经成为当今和未来人们获取所需资源和信息交流的主要场所,随之而来
本文首先分析了当前校园网络管理中存在缺乏有效的管理手段、自动处理能力不足、忽略对局域网管理等问题,指出造成这些问题的一个重要原因是缺乏网络拓扑自动发现能力。本文按
随着软件工业的飞速发展,软件的安全日益重要,传统的软件加密、代码模糊化、数字指纹和数字水印等技术已经无法有效的保护软件的完整性安全。软件自检测防篡改技术针对传统软
随着Internet和个人计算机的普及,科技文献的数量以指数的速度激增。如何从科技文献中抽取出有用的信息以供快速、准确地从浩瀚的信息资源中寻找到所需科技文献是十分有意义
无线网络是最近几年兴起的一项新技术,包括无线局域网和无线广域网。随着技术的进步和成本的降低,无线上网也逐步流行起来,不同的无线网络所覆盖的范围,提供的网络带宽也不相
随着人类社会的发展和交流合作的深化,人们要求计算机不仅解决传统的计算问题,也要辅助多个用户之间的合作。计算机支持的实时协同编辑反映了人们对计算机功能要求的改变,它
软件系统所基于的计算机硬件平台正经历从集中封闭的计算平台向开放的Internet平台的转变。未来的基于Internet平台的软件系统会形成一种与当前的Internet类似的Software Web
在传统的机器学习方法中,训练集与测试集通常来自于同一分布。但是迁移学习所研究的问题是如何将源域样本集迁移到不同分布的目标领域,并辅助训练目标域模型,从而提高模型的训练