网络故障诊断和性能分析

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户:yinlangui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着数据处理的集中程度越来越高,网络和网络所提供的信息服务的重要性日益凸现。网络特别是骨干网络出现故障导致网络性能的下降或网络服务的中断对业务正常运作的影响是巨大的,网络的稳定良性运转直接关系到业务的安全生产。因此,如何快速发现网络故障、找到网络瓶颈、提升网络性能、提供工作效率是所有网络维护管理人员必须面临的棘手问题。本文就此问题作出具体阐述。
  关键词:网络故障诊断;性能分析;设备;方法
  中图分类号:TN711文献标识码: A 文章编号:
  1网络故障诊断和性能分析
  从目前来看,传统的网络故障诊断和性能分析有以下几种方法,他们有各自的特点。
  1.1置换法
  置换法简单且不需要专业的设备,但需要耗费大量的时间。这种方法从很大程度上来说是“治标不治本”,没有从根本上找到网络故障的原因。同时该方法对间歇的网络故障完全无能为力
  1.2设备监控和日志
  通过设备监控和查看日志来解决网络故障不需要额外的投资,一般可通过网络设备自带或配套的管理软件实现。该方法操作相对不算复杂,但需要使用人员对设备的相关配置和技术参数以及网络拓扑结构非常熟悉,能够从海量的信息中找到需要的数据。时间上的花销也较大
  1.3使用网络测试仪
  网络测试仪的使用相对复杂,但它能对网络的情况做比较全面和完整的分析。不过想要非常准确的定位网络故障,提升网络性能需要网络测试仪使用人员有比较专业的网络知识和丰富的网络管理维护经验。另外网络测试仪一般是实时检测工具,当有突发的或间歇性的网络故障发生时,如何有效的使用网络测试仪实现网络故障诊断也是一个挑战。
  1.4使用网络管理和监控软件
  网络管理和监控软件对网络的分析比较全面,能够给网络维护管理人员提供非常有益的帮助。但目前来看网络管理和监控软件存在一些不足的地方,如:网络设备的传输性能情况;用户端的应用性能情况等。另外网络管理和监控软件一般无法实现协议分析,因此在深层次的故障分析上不具备优势。
  1.5使用网络流量监控设备
  网络流量监控是网络故障诊断和性能分析及其重要的一环,通过有效的网络流量监控可以快速的实现网络故障的确认并以此为依据提升网络性能。但是目前主流的网络流量监控需要交换机/路由器提供功能上的支持(需要交换机/路由器支持NetFlow、J-flow、SFlow等),并将占用部分交换机/路由器的资源。另外,网络流量监控也没有办法评估网络设备的传输性能,用户端应用性能等。
  1.6协议分析工具
  协议分析是非常有效的网络故障诊断和性能分析工具,但协议分析要求使用人员有非常深厚的网络理论基础,另外常见的协议分析工具对一次性分析的数据量都有限制,因此在使用面上受到了一些限制。
  以上的工具和方法各有优劣,如何选择合适的方法和工具,对网络的故障进行快速诊断,提升网络的性能是所有网络维护管理人员必须面临的棘手问题。对于我局网络管理维护人员也是如此,目前我局信息化建设存在如下一些问题。
  2玉溪局信息化建设存在的问题
  2.1网络设备品牌、数量众多;结构层繁杂;维护难以做到全面深入
  我局的网络设备和服务器数量众多、品牌、型号复杂。地理位置分布在不同的建筑,不同的楼层,怎么样才能对网络的故障作出快速反应并提出解决方案,及时的对故障进行排查是我们目前面临的一大难题。当前我们仅凭经验来判断和管理维护网络,这样的工作模式比较被动,并且人工分析的效率低下,难以将所有系统的工作都维护得全面。同时也为后期的网络优化带来了极大的困难,容易造成投资的无谓浪费。
  2.2缺少量化的实时分析系统
  由于缺乏工具手段,我们目前只能凭借用户的感受来判断网络的性能,而没有准确的数据来说话,这样就导致了无法准确、快速的了解网络的性能,掌握可能导致网络性能下降的根据原因,对网络的优化也无从谈及。因此我们必须依靠自动化分析工具来实现。这样才能主动提高网络服务的稳定性和高可用性。
  2.3监控中心缺乏简单有效的协议分析工具
  网络管理和维护工作的主要目的之一是为了提高IT运维的效率,缩短平均故障恢复时间(MTTR),从而提高各业务系统的可用性、稳定性,让各业务系统真正有效地服务于企业正常运转所需的各项工作,并最终为网络优化提供数据基础。在业界,针对网络应用性能管理及故障检测的手段主要为“捕包解码”通过“捕包解码”能够将网络应用故障发生时网络中具体数据和信息一字不差地记录下来,以便故障恢复后能够实现故障现象还原分析。通过“协议分析”能够对每个网络数据传递过程进行最深层次的分析,直接找到故障发生的Root Cause(根本原因),从而防止类似问题再次发生。
  2.4网络、服务器、客户端、软件系统责任界定困难
  系统性能下降的原因有多种,包括:网络故障、服务器故障、客户端故障、软件系统故障等。而一旦网络故障的出现,我们经常需要反复多次的排查、定位故障原因,甚至为了判定责任区域属于何方而一起开会讨论,但是获得一致的结果往往很难,因为各小组分别都有自己的故障测试仪器和方法,而这些方法工作在ISO/OSI模型的不同层次,所以其测试所参照的标准是各自所在层次的协议标准,它们是相对独立的,很难将这些测试结果组合到一起来互相印证以判断故障。
  2.5缺乏系统优化需要的科学数据
  一个能够持续稳定提供服务的系统,在使用过程中一定需要良好的机动维护能力,能够及时根据使用情况调整和优化,目前,我们主要依靠用户的终端感受和故障出现的频率来判断系统的瓶颈,并依次作为网络优化的基础。这种方式以直观感受为主,没有科学的数据基础,无法找到系统的短板,这将直接造成“头痛医头,脚痛医脚”“治标不治本”的结果,从而导致资金的盲目投入和浪费。
  2.6逐步用更为科学、长期的性能瓶颈评估数据支持系统优化和IT采购决策
  在IT采购的概念中有一个著名的“木桶理论”,硬件、软件、网络、运维能力就像组成木桶的各片木板,任何一个木板短了都会直接导致整个系统其他部分投资浪费,因此整个IT系统应该均衡各方面的性能才能避免浪费。
  软件每年信息系统进行的软件、硬件投资金额可观,为了能够“花好每一分钱”,不造成投资浪费,唯一的方法就是在投资采购之前,准确评估出”最短的木板”,投資的钱都用于改进性能最差部分,从而保证用最小的投资获取最好的性能提升。
  2.7 ITIL与BSM需各层次数据源
  如果逐步考虑部署ITIL或者BSM系统,将需要各个层次的性能数据提供数据源,典型的数据源是“最终用户体验时间”,应用性能响应等各类参数,比如PMDB(performance management Database,)CMDB(Configuration Managemtn DataBase)等,目前还欠缺全面的业务系统PMDB相关的数据。
  这些问题使用传统的网络故障诊断和性能分析方法已经不能完全满足我局信息化建设发展水平,因此找到适合我局网络故障诊断和性能分析的方法工具是当前工作的重中之重。
  3 适合玉溪供电局网络故障诊断和性能分析的方法工具
  目前玉溪平安城市监控系统的的运行从根本上改变了玉溪市的面貌,该系统通过多点联网监控,最终实现监、控、存、查、管等综合应用,同时为交通、治安、消防、通信、农业、灾害、突发事件等提供基础数据和辅助信息。该系统的建设也为我局的信息化建设提供了诸多有用的思路。如果我局的信息网络中有一套类似“平安城市”的系统,那么我们将可以快速的发现和定位故障,提供科学的基础数据用于网络性能的提升。
  借鉴“平安城市”的理念来构建我局的“平安网络”系统,要求该系统具备如下的功能:(1)能够在网络中多点部署并联网分析;(2)实现网络数据的监视;(3)实现网络数据的控制(4)实现网络数据的存取;(5)实现网络数据的查询;(6)实现网络数据的管理
  根据以上的需求,我们经多次调研和设备测试,最终选用了某知名品牌的海量在线分析系统。该系统完全符合我局当前的需求,并切合“平安网络”的理念。3.1能够在网络中多点部署并联网分析
  在网络不同点接入设备,并选择条件捕获数据
  合同不同点捕获的数据进行分析
  
  根据分析结果自动汇总报告
  
  3.2实现网络数据的监视
  通过系统的实时监视页面可以看到当前时间网络的整体情况,包括:总的流量、网络利用率、网络吞吐量、网络发包频率、网络的单播、多播、广播等情况
  
  网络中各个应用的分布情况
  
  页面应用的整体分析情况
  
  重要链路的实时分析
  
  3.3实现网络数据的控制
  
  3.4实现网络数据的存取
  应用性能的取证
  
  网络瓶颈分析
  
  3.5实现网络数据的查询
  数据查询过滤条件
  
  私有协议的添加
  
  简单直观的梯形图
  
  网络故障定位
  
  
  3.6实现网络数据的管理
  各种应用数据及音视频的还原
  
  
  报告的编辑
  
  
  
  4该系统的故障诊断和性能分析原理及方式
  4.1海量数据线速全采集
  该系统提供高性能、高精度(20纳秒),进行全线速100%捕获来自10/100/Gigab网络4个网段(通道)的数据(<=4Gbps)。具有大容量的存储空间(8TB)可以连续长期捕获并记录数据。
  (1)基于FPGA的专用网络接口卡提供“线速捕获”缓冲区性能。
  (2)高性能索引算法确保较高的导入磁盘速度,从而快速高效地识别存储的数据。
  (3)可用的RAID 5磁盘控制器提供额外的冗余;因此,即使其中一个硬盘出现故障􀉼存储的数据仍然是安全的。
  (4)大容量的数据存储8TB
  (5)各种分路器解决方案和NTM的多个监视接口提供许多用于监视网络重要链路的选项这些保存的原始数据,可进行网络性能安全分析及各种故障问题的查找及定位。
  4.2网络异常发现
  (1)网络趋势变化。7*24小时长期监控网络各应用业务数据,可了解其各个时段变化状态,了解其网络正常运行时的变化规律,一旦网络或应用出现异常,可做到及时发觉。
  (2)各级别、多应用实时故障告警
  经过长时间网络监控分析,了解自身网络的实际情况。可以根据实际情况设置各种参数的门限值、严重级别,对网络中的各种异常情况及时察觉,并及时通过邮件、脚本、或者SNMP Trap的方式实时通知管理员,可将网络故障及早排查,避免造成大的损失
  (3)各种业务应用的整体分析
  各种应用的分布情况及应用的状态变化,通过各个应用的趋势变化,清楚应用的正常状态,清楚各个应用的响应时间分布情况,在不同时段应用的响应快慢变化,以及在整体响应时间中,客户端、服务器端、网络传输分别占用的比例情况。用于发现异常及网络瓶颈。
  4.3异常数据提取
  (1)实时过滤、切片功能。具有多个过滤器级别,确保仅将需要的数据捕获到磁盘阵列中,然后,应用额外的过滤器将数据提取到跟踪文件中,以便进行快速分析,最后,应用另一个过滤器,进一步缩小所需数据包的范围。该系统具有独特的切片/过滤器组合,这意味着它可以改进存储在磁盘阵列中的数据包类型,对于与自定义过滤器标准匹配的关键应用程序,NTM可以存储整个关键数据包,也可使用切片功能以只存储标题信息,这使您能够保持重要的性能或信号传输数据,并将数据图用于重要事件或应用程序。
  (2)过滤条件。用户可以对网络中的各种流量进行实时或离线的过滤,可以通过时间及各种过滤条件进行组合过滤,提取异常数据。更加快捷的分析自己关心的内容。支持灵活多样的实时流量捕获设置。支持基于应用内容(Application和VOIP协议)、网络层、指定流、IP子网、MAC地址,VLAN、指定偏移量等条件进行过滤。并且各个过滤条件可以通过与、或、非等操作进行复杂的过滤机制对于非标准的应用或异常流量如攻击或者病毒,用户可以任意定制,并通过图形化进行监控和分析。
  (3)异常数据提取步骤。①当发现异常问题时,您通常了解发生问题的时间,由于NTM按日期和时间对存储的数据包进行分类,因此您可以方便地查找和打开感兴趣的记录,NTM显示数据包的利用率和重要的统计信息。②通过点击鼠标􀉼选择调查的时间范围(可精确到毫秒)。③单击“显示跟踪”以将选定的数据包导出到跟踪文件,现在,即可使用分析功能分析数据包,使用过滤器按来源/目标地址、应用程序甚至模式进一步改进感兴趣的跟踪记录,以便对流进行定义和细节分析。
  4.4多段数据合并分析
  对于复杂的问题,采取将多个采集点的数据进行整合分析,清楚的了解问题是出现在哪一段?是服务器?是网络传输中?还是客户端本身?
  使用其简单直观的分析界面,对每个合并的应用的交互过程进行详细的分析及判定,确定问题的根本原因,其步骤如下:
  (1)启动系统以进行跟踪分析,此时会立即用红色、黄色或绿色图标表示每个应用程序的健康状况,单击图标以进一步了解详细信息。
  (2)显示与应用程序相关的每个流的计时图形,存在问题的数据包以红色或黄色颜色显示,此时,大多数问题都可以得到确认,但是,如果仍需要数据包解码,只需双击数据包即可进一步了解相关信息。
  (3)通过指标和报告分析,可以清楚的知道,问题的根本原因是由于网 络传输造成的,还是应用出了问题,还是客户端的问题。
  通过该系统的建设,我们初步实现了网络快速故障诊断性能分析的目标,同时实现了以下的的技术成果,达到了提高运维的生产效率、减少系统开销的目的:
  (1)实时和长期的网络流量监控;
  (2)OSI模型中二層至七层数据的捕获和保存能力;
  (3)多个流量捕获端口捕获的流量进行合并的分析能力;
  (4)捕获前和捕获后有效数据提取,并实时显示各项分析和统计结果;
  (5)根据捕获的数据进行长期的流量分析,其分析应涉及到应用层,网络层,物理层。
  (6)根据需要锁定网络流量数据并进行详细的协议分析,支持IPv4和IPv6;
  (7)通过协议分析,提供协议的梯形图,并在协议交互过程中提供相应数据,标明本协议交互过程中的异常现象。发现各种传输层问题和应用层问题,并给予告警。
  (8)支持应用协议数据的还原;
  (9)多种类、多格式的报告;
  (10)系统提供OSI模型的二层至七层层面的分析报表,包括各项汇总数据、TOPn排名等;
  (11)发现系统瓶颈,为系统优化提供科学的数据。
  5结束语
  网络故障诊断和性能分析是所有网络维护和管理人员所必须要面临的工作。而随着网络规模的扩大,应用的增加,设备的扩容,该项工作的具体内容也会有所变化,如何有效、合理的选择合适的方法工具将始终贯穿到整个工作流程中。但是保障网络系统正常、高效、稳定工作,减少运营成本,提供提高工作效率这一核心内容将始终不变。
其他文献
【摘要】预应力钢筒混凝土管水泥砂浆保护层对管体起到防腐与保护作用,但在水污染环境日益严峻的形势下,仅仅依靠制作致密水泥砂浆保护层的防腐措施是不完善的,还应从改善水泥砂浆原材料组成着手,提高水泥砂浆自身的抗腐蚀性能和抗渗透能力,才能有效阻止有害物质的侵入。  【关键词】PCCP 保护层 防腐  中图分类号:X131.2 文献标识码:A文章编号:    The Anti-corrosion and P
摘要:近年来,随着社会的进步和经济的发展,我国社会主义现代化建设进程不断加快,在很大程度上实现了人们生活环境的改善和生活质量水平的提高。工民建作为我国经济建设的基础,受到了社会各界的广泛关注。在市场经济竞争体制下,工民建项目建设要求的提高使得工民建项目工程管理迎来了新的挑战。但就目前现状来看,我国工民建项目工程管理尚不健全,迫切需要相关企业部门深化改革,构建完善的工民建项目工程管理体系,以保证工程
摘要:本文主要对调度运行部门在经济运行方面的工作中所采取的措施进行了深入分析,通过变压器经济运行,科学合理安排电网运行方式,降低电网损耗,不断提高电网经济运行水平。  关键词:电网;经济调度  中图分类号: U665.12文献标识码: A 文章编号:  1输电线路线损的意义及影响  在给定的时间里,系统中的所有送电、变电和配电环节所损耗的电量,称为电力网的损耗电量。该损耗电量占供电量的参数百分比称
摘要:本文通过对消弧线圈补偿系统三种状态的比较,以及对厦门地区消弧线圈补偿系统的分类做了分析,阐述了不同所方式具备的优缺点,提出了应结合实际电网结构和发展来选择合理的补偿系统。  关键词:消弧线圈;补偿系统  Abstract: This article through to the arc-suppression coil system three state comparison, as we
摘要:伴随着经济社会的发展和人们生活水平的提高,人们对自己生活环境的要求越来越高,同时也给民用建筑装饰装修工程提出了新要求。文章主要结合民用建筑装饰装修工程的实际情况,探讨分析了施工技术要点问题,其中主要包括装饰装修工程施工的技术要求、装饰装修工程施工的方法和质量控制两个方面的内容。在施工实践中,做好施工技术要点工作,能够提高装饰装修工程施工水平,提高民用建筑工程质量,规范建筑市场,具有重要的现实
摘要:坝体冲抓套井回填粘土防渗墙是利用冲抓锥取土造井,再向套井内回填粘土,夯实后形成粘土心墙的技术。该技术已广泛运用于中、小型均质土坝的防渗加固处理,具有施工简便、成本较低、坝体防渗效果较好等优点。本文从坝体冲抓套井回填粘土防渗墙的原理出发,并结合工程实例阐述了坝体冲抓套井回填粘土防渗墙在病险水库除险加固中的应用。  关键词:坝体冲抓套井;回填粘土;防渗墙;坝体防渗  中图分类号:P619.23+
摘要:随着我国社会经济快速发展,国民的生活现代化水平越来越高,工、农业生产的集约化、现代化水平的不断提升,对电力的需求和依赖程度亦呈上升趋势。保证电网安全稳定运行成为至关重要的一环,因此电力调度运行的安全控制重要性也是日益凸显出来,本文结合作者工作实践对电力调度运行特点,和当前电力调度运行管理中的安全和控制措施进行探讨。以供学习参考。  关键词:调度运行;安全措施  中图分类号: TM734文献标
目的 探讨儿童过敏性紫癜(HSP)的临床特点.方法 对2003年1月至2007年6月在本院住院的152例过敏性紫癜患儿的发病特点、临床表现、预后等方面进行回顾性分析.结果 ①以男性患儿为主,男女比为1.7∶1,好发于7岁以上儿童.②春季发病最多,71例(46.71%).③诱因多为呼吸道感染,53例(34.87%).④所有患儿均出现皮肤紫癜,合并消化道症状者78例(51.32%),合并关节症状63例