对数据中心交换机在线诊断维护技术的分析

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户:huashu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文作者根据自己多年的工作经验,对数据中心交换机在线诊断做了一些简要阐述,并对技术故障维护做了分析,供同行参考。
  关键词:数据中心交换机;诊断维护;故障处理;单板隔离技术
  前言
  对于数据中心交换机设备来说,由于所承载的应用重要性,一旦发生故障,必须要能够快速定位及解决问题。但是面对当前异常复杂的数据中心组网拓扑以及维护定位手段的缺失,如何才能应对这一挑战?本文就此问题作出一些技术分析,在线诊断分析当前设备的运行情况,对故障和异常能自动发现、自动恢复、自动隔离。满足用户对设备更高的可维护诊断需求。
  
  概述
  诊断维护需求
   数据中心交换机设备良好的可维护可诊断体现在多个方面,主要关注于对器件、业务的故障检测与响应:
   器件的可靠性检测:器件的可靠是整个设备可靠的基础,只有每个器件可靠了,才能保证整个系统的可靠运行。器件作为独立的角色,针对器件的检测非常简单和也非常有效。
   业务的可靠性检测:交换机设备的主要功能就是业务转发功能。在某些硬件故障情况下,往往业务端口仍处于UP状态,但设备却无法正常转发报文。在这种情况下,加上组网的复杂度,如遇严重故障,维护人员很难感知故障,更无法快速确定到故障点。这就需要业务可靠性检测功能,及时的发现和处理业务转发的故障。
   故障的自动分析、定位和恢复功能:在目前复杂的组网情况下,找到一个故障点,并明确故障所在的单板往往需要几十分钟甚至几个小时的时间,这无疑对维护人员来说是场噩梦。如果设备能自动分析、定位和恢复故障,就可以有效降低维护的人力投入,同时极大的减少了故障时对业务的影响。
  设想中的诊断维护架构
   要实现诊断维护的这些需求,可以准备一整套的诊断架构,基于该架构可以方便的实现整体的诊断维护功能。该诊断架构主要分成三部分。如图1所示,从下到上,首先是通过对器件、单板、业务的检测来及时发现故障,然后把故障检测结果报告给在线智能诊断分析模块对故障进行分析、深入定位,最后智能诊断分析模块根据分析的结果进行故障保护性处理,包括把故障告警通知用户维护人员,并进行恢复和保护性倒换。
  
   在线检测诊断模块关系图
  在线检测——发现故障
   交换机可以通过在线器件故障检测功能在设备运行时,定时不断的扫描各主要器件的(如单板电源模块、时钟、晶振、CPLD、内存、转发芯片等)运行情况,一旦出现器件故障,及时通知到智能分析模块进行保护处理。其器件检测基于软硬件的结合,快速、可靠。以对时钟的检测为例,时钟作为硬件转发芯片的工作基础,如果出现偏差和停止输出会造成整个转发芯片无法工作。可以对时钟输出信号提取一路出来通过CPLD在线实时监控,当时钟出现过大偏差或停止输出时,就主动触发中断通知CPU的智能诊断模块进行保护性处理。
   而对于交换机的业务板、主控板在内的各种单板检测而言,这些单板都有独立的CPU,互相间的通讯通过板间通讯通道进行,是完全独立的一套系统。在这种分布式的架构下,设备需要快速的感知各单板的运行状态和故障情况,确保业务能选择最优路径转发。高端交换机可以使用独立的检测平面,定时快速的扫描各单板的运行、业务处理情况,对处于异常的单板根据故障通知智能分析模块及时进行保护性处理。例如:在分布式设备中,有很多的数据报文发送和处理都是在业务处理板上进行的,设备会自动根据单板的故障状态,对业务处理优选正常运行单板进行处理,确保业务处理的高效和正确。
   交换机最基础的功能是正确转发业务报文。在线业务检测就是在线检测整个业务转发通道是否正常,如果正常,表明整个系统的转发功能是正常的。如果出现异常,就要及时通知智能分析模块,由智能分析模块来定位出故障点,并进行相应的保护处理。例如:当某块业务板的某个转发芯片出现转发故障,业务通道检测功能就能快速的感知到其它转发芯片到该芯片的业务通道故障,通知智能诊断分析模块对该芯片进行保护处理。例如可以通过关闭该芯片上对应的物理端口,把流量切换到备份的端口以快速的恢复业务。
  在线智能诊断分析技术——分析故障
   通常交换机设备出现故障时,往往只能提示用户出现故障,却无法进一步深入的判定问题所在和保护处理。可以通过一整套的在线智能诊断技术,根据故障的原因和用户配置的情况,实现告警、故障隔离、故障尝试恢复等处理。
   如图1中间层所示,在线智能诊断分析模块会自动的收集各种检测的结果,对出现异常的检测结果将交由深入探测功能模块进一步深入分析和定位,判断出故障点,通知用户更换故障单板,并对故障实施隔离、尝试恢复等动作,对业务进行保护性倒换。
   例如:某业务板出现故障,造成报文转发丢包。这时,业务通道故障检测发现转发异常,将故障报告给在线智能诊断模块,该模块会通知深入探测诊断功能模块启动对各业务单板的深度探测功能,最终定位到故障点为某块故障单板后,在线智能诊断模块会把该业务板隔离,去除该业务板对转发的影响,恢复业务。同时,告警提示用户更换该业务板。
  在线保护技术——处理故障
   在线智能诊断分析在分析到故障后,会根据当前系统的配置情况和故障原因,进行一系列动作进行故障的自动恢复处理(如图1最上层所示),其中必须要实现关闭端口和单板隔离。
  关闭端口(故障端口自动备份切换技术)
   作为数据中心组网中,在组网规划时往往会考虑通过跨板链路聚合、IRF/VSS等技术提供冗余备份保护。当设备出现硬件转发故障时,往往端口依然是是UP狀态,因此对端设备会认为该端口为可用端口,流量照常往该端口转发,结果造成冗余备份保护无法生效。
   结合在线诊断检测和分析功能,设备可以在检测到硬件或者转发故障时,根据定位到的故障点,检查故障影响的用户端口,如果该用户端口存在备份链路,则自动关闭该用户端口,使对端的流量倒换到备份链路上。该技术结合IRF/VSS等跨框聚合可以更加完善的提供冗余备份功能。
  
  
   备份自动切换示意图
   如图2所示,用户在IRF设备上配置PortA和PortC聚合,PortB和PortD聚合。服务器A和服务器B间的流量如上图所示。在PortA、PortB端口所在单板出现转发故障时,此时由于仍为UP端口,交换机A和交换机B仍继续执行负载分担把流量发送给PortA、PortB,但实际情况却是因转发故障造成红色的流量全部在交换机上被丢弃。
   现在,在配置了故障端口自动备份切换功能后。智能诊断分析模块在定位到该单板故障后,分析出该板的PortA、PortB端口存在备份端口PortC、PortD,则对PortA和PortB执行管理DOWN,交换机A和交换机B即可以感知到端口变化,只把流量发送到PortC和PortD端口上,即流量只走绿色的路径转发,两台服务器间的流量恢复转发正常。
  单板隔离技术
   单板隔离是将指定单板从业务平面中隔离出来,不再参与业务转发。被隔离单板仍在管理平面中,可对其进行重启等基本操作。交换机设备在出现硬件单板故障时可以自动的进行故障单板隔离处理,也可以手工命令对故障单板来进行隔离,并可将单板隔离后进行现场诊断,方便准确、深入的定位分析故障原因。
   当对线卡板设置隔离后,该线卡板的所有业务端口被管理关闭,不会有报文从外部进入该板;线卡板对应的交换网端口也被关闭,不会有报文从其他线卡板转发过来;从而使该板从转发业务中脱离出来。
   当对内部交换单板设置隔离后,内部交换单板上的交换网芯片被设置为“不可达”,从而该网板从转发业务中脱离出来。高端数据中心设备一般具有多块内部交换单板,内部交换单板间互为冗余备份,在对部分内部交换单板的故障隔离后,不会影响整体转发功能。在检测到内部交换单板故障后,如果会自动进行该单板的隔离处理,可以确保故障单板不影响业务转发。
  结束语
   由以上分析可知,对于数据中心交换机设备而言,其诊断维护功能的需求发展趋势是自动发现故障、自动隔离故障、自动故障恢复,做到设备无需维护,机房无需值守。这尤其对于数据中心,以及其中的核心交换机设备的运维效率与效果意义重大。
  注:文章内所有公式及图表请以PDF形式查看。
其他文献
摘要:本文结合笔者多年从事房地产项目工程成本管理的实际工作经验,从房地产企业内部管理出发,针对项目工程成本管理中关键的几个环节,浅析如何通过做好这些环节上的工作来做好工程成本管理,最终达到合理有效降低房地产项目开发成本,提高利润的目的。   关键词: 房地产开发;工程成本管理;降低成本  Abstract: the author discusses many years engaged in th
摘要:建筑设计是解决室内空间使用及美观的基本要求,同时,在外部形体上具有一定特性的风格,并与周围环境、城市文脉及城市规划相协调。生态建筑是当前全新的一个概念,由此也产生一些关于生态建筑设计的问题,本文将对生态建筑设计要点、设计目标与原则及设计策略进行了阐述。  关键词:生态建筑,设计,方案  Abstract: the building design is solve interior space
摘要: 随着社会的发展,充分利用地下空间,越来越多的车库都采用无梁楼盖结构。无梁楼盖结构由于通风、采光效果好,而且还能大大降低层高,减少开挖,节约建设的费用,因而被广泛采用。为达到设计更为经济、合理的目的,本人针对无梁楼盖地下室顶板上消防车活荷载的取值进行了探讨。通过对消防车队的车轮作用方式,建立起合理的计算模型,按照荷载最不利布置原则布置消防车荷载,计算折减后的等效均布荷载值,并给出合理的设计取
摘要:随着城市建设的发展,基坑及其支护工程已经成为一个涉及结构工程的复杂岩土工程问题。对于高层建筑来说,必须要有一个好的基础。因此,在施工中,深基坑支护施工就越来越来普遍。本文主要阐述了深基坑支护技术的常见类型以及使用范围,介绍深基坑施工中支护体施工的相关内容,并说明支护体施工的具体要求及质量控制要点。  关键词:建筑工程;支护;施工技术;深基坑  Abstract: with the devel
摘要:机电设备技术安装是一个多工种、多工序、多系统的复杂生产过程,它是建设工程的重要组成部分,我们应给予足够的重视。同时如果在安装过程中发现有故障问题,就要找出故障原因并加以分析,及时采取对策,保证机电设备的安装调试和正常运行,对提高生产的经济效益有着非常重要的意义。本文主要以建筑自动化机电设备安装为分析对象,探讨了建筑机电设备安装原则,以及安装方法和要点,重点分析了主要设备安装的方法,最后通过实
摘要:随着国内居民居住条件的不断完善和生活水平的不断提高,居民们对住宅的舒适性、便捷性、使用功能、以及建筑室内外的细节要求也不断提高。该文结合工程设计经验,着重阐述了住宅设计中的一些通用的细节性问题,为进一步完善和深化住宅设计提供良好的参考。  关键词:户型设计;公共交通空间设计;细节设计;节能设计  Abstract: with the domestic residents the contin
摘要: 工程项目施工过程中,变更与索赔几乎是不可避免的。工程索赔是一项极其重要、且具复杂性而又系统性、既严格又细致的工作内容,它能直接影响合同执行的最终结果。所以探讨建设工程项目变更索赔是很有实际意义的。  关 键 词: 变更索赔;工程项目;索赔过程  1.前言:  工程承包市场竞争激烈,由于买方市场的存在,承包商之间除了在施工技术方面竞争外,更重要的是投标报价水平的竞争。承包商为了有竞争力,中标
摘 要:本文主要是介绍了机电设备保护在接地的两种方法,主要分析了配电线路保护接地应该注意的一些问题,并且对可能会出现的保护接地故障提了整改方案,可供参考。  关键词:机电设备 保护接地 故障分析  对于机电设备的保护接地是电力公司重点的项目。保护接地主要指的是家用电器、机电设备等由于绝缘的损坏可能导致其金属外壳带电,为了防止这种电压危及人身安全而设置的接地称为保护接地。保护接地分为接地保护和接零保
摘要: 通信工程的最终表现形式是通信网络的形成和网络规模的扩大。通过网络图的绘制,时间参数的计算和关键路线的确定,只能得到一个初始的网络计划方案,为了使之成为一个工期短、资源消耗  少和成本较低的计划方案,必须对初始的网络计划图进行优化调整。  关键词: 通信工程;网络优化;项目;方法  一、引言  随着中国加入W T O ,国际间的交流合作日益增多。国际间的合作与交流往往都是通过具体项目实现的。
[摘要] 文章首先阐释了煤矿城市概念和基本特征,在分析了淮南市产业发展轨迹和淮南市空间结构的演进过程基础上,提出了淮南市产业转型发展的策略以及煤矿城市理想的空间发展模式,即是“多中心、紧凑型、网络化”城市空间结构,文章最后总结转型期淮南城市空间结构的优化措施。  [关键词] 煤矿城市产业转型城市空间结构演化过程淮南市  Abstract:This paper explained the conce