论文部分内容阅读
【摘要】 面对大规模、高性能的网络监控需求,用户需要一种新的网络监控方式。遥测技术可以满足用户要求,支持运维系统对监控设备的全量指标采集、监控数据拥有更高精度和更加实时、监控过程对设备自身功能和性能影响小,为网络问题的快速定位、网络质量优化调整提供了最重要的大数据基础,将网络质量分析转换为大数据分析,有力的支撑了云网络精细和智能运维的需要。通过Telemetry协议直接从底层硬件秒级获取丰富的业务运行状态及性能数据,全景可视化展示云数据中心网络的整体运行情况,丰富的业务流示图为云网络精细运维、敏捷响应及优化提供有力数据支撑,助力网络智能运维。
【关键字】 遥测技术 网络 云数据中心
一、数据中心向云数据中心转变,网络复杂度不断增加。
当今,数字经济蓬勃发展,信息技术已深度融合到经济社会的各个领域,各种互联网应用像支付、打车、外卖等应用,都正在融入并改变人们的工作及生活方式。这些互联网应用的稳定运行越发显得重要,作为承载互联网应用的云数据中心网络,任何一条线路及系统故障都有可能对用户产生严重影响。电信运营商作为大型云数据中心网络提供商,面对用户流量需求爆炸式增长和复杂多样的网络需求,也以云和数据中心为抓手,积极构建支撑数字经济发展的稳固基础底座。
然而随云计算、大数据、人工智能等新技术的兴起和成熟,也推动了互联网数据中心产品、规模和技术的快速升级和转型。
首先,网络规模不断扩大,云数据中心接入带宽从传统的10Gbps升级到25Gbps/100Gbps,出口带宽达到10Tbps以上。
其次,网络架构复杂度增加,引入SDN(Software Defined Network,软件定义网络),实现传统网络资源、服务器资源及存储资源的云网一体化整合。
最后,越来越多的高性能和低时延应用,如GPU、HPC、AI等业务严重依赖数据中心网络传输质量,对网络性能提出更高带宽容量、更低时延的连接要求。
二、云数据中心网络运维面临的挑战
云数据中心网络的设备规模日益增大,承载的业务越来越多,用户对网络运维也提出了更高的要求,包括监控数据拥有更高的精度以便及时检测和快速调整微突发流量,同时监控过程要对设备自身功能和性能影响小,以便提高设备和网络的利用率,特别是云网一体的融合网络,对Underlay和Overlay网络的运维都提出了更高的挑战。如何保障其稳定、可靠及可控运行。
从运维角度,需要更加精细、智能的网络运维监控系统,才能实现对网络高效管理。如何建立端到端的业务可视运维系统,建立智能化的监控中心,构建高效、精细地管理云数据中心,为业务提供可靠、稳定的网络服务,成为云数据中心网络运维面临的一大挑战。
然而,传统基于CLI、SNMP机制的被动运维模式,因存在通过拉模式来获取设备的监控数据,不能监控大量网络节点,限制了网络增长;精度是分钟级别,只能依靠加大查询频度来提升获取数据的精度,但是这样会导致网络节点CPU利用率高而影响设备的正常功能;由于网络传输时延的存在,监控到的網络节点数据并不准确。这种被动响应、故障定位迟缓等网络监控系统,管理效率越来越低,已无法跟上时代的步伐,无法满足数据中心云网络运维要求。
因此,面对大规模、高性能的网络监控需求,用户需要一种新的网络监控方式。能够在不影响设备的性能和功能的情况下实现更高精度的网络数据监控。能够快速、精准地掌握全网设备、链路和业务的实时运行状态,可以通过自动化平台收集信息,快速对网络进行适配,提升响应速度和运维效率。
针对影响业务体验、用户感知的性能问题如丢包、卡顿等故障,需快速根据转发路径时延情况确定故障点。因此,云数据中心网络监控系统需快速定位哪台网络转发设备的哪个端口发生丢包、实时监控每台设备的Buffer、流量等使用情况、快速定位故障的具体设备、转发路径、故障端口、故障链路等信息,迅速找出故障根因并修复。
网络遥测技术可以满足这些网络管理要求,其监控数据拥有秒级的精度时时检测和快速调整微突发流量,同时监控过程对设备自身功能和性能影响小,大大提高设备和网络的利用率,为智能运维系统管理更多的设备提供了可能,其高效的数据获取方式和海量的运行数据,为网络故障的快速定位、网络运行质量优化提供了最关键的大数据基础,通过对大量网络运行数据的大数据分析,可快速定位故障根因,为网络故障的修复和网络质量的优化提供决策依据,为业务网络流量实现智能调度,从而支撑云数据中心网络的智能运维。
三、网络遥测技术概述
网络遥测(Network Telemetry)是一种从虚拟设备或物理设备上远程采集运行状态数据的技术,并且具有实时、高速、准确的特点。被控设备通过推送模式根据采集周期、采集表项主动向采集控制器发送性能和流量数据。相对传统拉取模式的一问一答式交互,网络遥测技术提供了更实时、更丰富、更高速的数据采集功能。不但节省了问答式网络链路开销,更是以秒级速度实现对被控设备运行数据的高速收集,实时感知网络运行状态。遥测技术是设备交换芯片在处理数据包的同时,根据报文转发路径自行收集性能参数和流量状态的一种带内网络技术INT(In-band Network Telemetry)。狭义的Telemetry是指设备特性,广义的为是一个闭环的监控系统事实上,Telemetry并不是新发明,Netstream和NetFlow早已实现了对网络流量的采样推送,但此类技术推送的是原始数据流采样信息,它根据报文的目的IP、目的端口号、源ip地址、源端口号、协议号和tos来区分流信息,并针对不同的流信息进行独立的数据统计。而监控用户期望标准化的数据模型。面对海量的云数据中心网络,任意一项分析任务都需要处理大量数据,对分析工具的性能带来挑战。同时,此类技术获取不了全量网络状态信息,如cpu、内存、接口流量及网络事件日志等,需要snmp类协议采用查询应答方式机制实现分钟级数据收集,存在被动响应、效率低下和采集手段复杂等特点。网络遥测技术和SNMP、NETstream等技术相比,可实现更高的数据精度和更丰富的设备监控数据获取能力。 四、遥测技术的数据中心网络监控系统的应用
基于遥测技术的网络监控系统由被管理的网络设备、采集器、控制器和分析器组成,采用INT和gRPC(Google Remote Procedure Call,谷歌远程过程调用)技术架构方案实现。
采集器主要实现对被管理网络设备的数据收集,常常采用分布式部署,其规模根据被管理网络设备规模确定。控制器是对采集器及采集对象表项、周期和参数的统一控制。分析器是对采集器上报的数据进行整体的编码及分析。
INT遥测技术采用订阅上报机制,通过设备底层芯片秒级收集网络转发运行数据,不占用设备cpu开销,随业务流转发路径实时检测。数据收集范围涵盖了网络设备的转发面、控制面和管理面。但是无法对交换机的Buffer进行全面的管理,包括出、入端口/队列、缓存、丢包等实时监控,显得有些无力。
于是,采用gRPC框架构建自动化运维接口,实现对交换机Buffer的全面实时管理,基于gRPC的运维接口设计,既满足运维对单个网络网元全面的Buffer实时性要求,又实现实现交换机与运维平台的解耦合,彼此透明、独立。通过对监控对象设备原始数据的收集、编码、传输、存储和分析,基于遥测技术的网络运维系统实现传统运维向智能运维的转变,包括3方面的核心能力:
4.1 Telemetry全场景数据监控,网络实时可视
采集器基于Telemetry协议收集设备、芯片、表项、Buffer、光模块等网络全景KPI数据,网络状态实时感知。各项采集数据通过采集器以PUSH+gRPC方式把各种指标结构化的标准数据持续推流分析器,通过数据分析,实现云数据中心全流量数据可视和随流的路径、质量检测。
4.2系统亚健康智能分析,主动预防故障
分析器通过采集器收集的设备关键KPI指标,从设备、单板、芯片、端口、队列、光模块多个维度呈现设备的运行状况。采用大数据算法,基于动态异常基线监测,识别网络劣化指标。分析器利用大数据技术,結合故障特征库进行跨数据领域关联分析,对光链路进行故障检修和故障概率测算,先于业务受影响前识别出异常光链路。提前发现隐患、预测故障。
通过设备、网络、协议、overlay、业务五个维度实时或周期性产生网络评估报表,全面掌握网络状态,实时推送。实现故障的主动防御,在用户发觉问题前将问题解决,避免对业务造成影响。
4.3利用网络流实现故障根因的快速定位
大型云数据中心,往往是一个云网融合的网络,既又由交换机、路由器等物理硬件组成的物理underlay网络,也有在underlay网络上为业务或用户构建逻辑隔离的虚拟overlay网络空间,其网络架构复杂,技术堆栈层次多,对故障的识别带来极大困难。特别是一些对网络延迟要求较高的业务,如高性能计算、人工智能等微服务软件和分布式架构,业务调研关系更加复杂,数据交换更频繁。出现故障后,对故障的响应和定位要求更高。
通过遥测技术可快速获取业务流检测信息,构建起租户到资源端到端数据流可视系统,任何一条数据流包括了报文转发路径信息、开始时间和结束时间、传输开销、路径时延迟、延迟时延等关键控制信息。对获取的大量业务流信息,根据业务overlay路径搭建模型,实现业务承载网络的路径流向分析,从而实现故障的智能识别。当业务出现指标劣化、访问缓慢、交易失败等性能问题时能及时感知,故障时能在各环境和节点快速定位找出根由。通过对故障分析,持续推动对网络的迭代优化,完善网络环境。在各节点、各服务运行环境的SLA一览无余。通过利用业务流跟踪计算路径和时延,系统实现故障快速故定位。
五、总结:
基于带内网络遥测技术和谷歌远程调用框架的遥测技术实现业务端到端的网络流量可视化,提升了网络监控数据的实时性和精确度,以业务流的方式实现对云数据中心网络的智能监控,保障业务稳定、可靠运行,助力数字经济蓬勃发展。
【关键字】 遥测技术 网络 云数据中心
一、数据中心向云数据中心转变,网络复杂度不断增加。
当今,数字经济蓬勃发展,信息技术已深度融合到经济社会的各个领域,各种互联网应用像支付、打车、外卖等应用,都正在融入并改变人们的工作及生活方式。这些互联网应用的稳定运行越发显得重要,作为承载互联网应用的云数据中心网络,任何一条线路及系统故障都有可能对用户产生严重影响。电信运营商作为大型云数据中心网络提供商,面对用户流量需求爆炸式增长和复杂多样的网络需求,也以云和数据中心为抓手,积极构建支撑数字经济发展的稳固基础底座。
然而随云计算、大数据、人工智能等新技术的兴起和成熟,也推动了互联网数据中心产品、规模和技术的快速升级和转型。
首先,网络规模不断扩大,云数据中心接入带宽从传统的10Gbps升级到25Gbps/100Gbps,出口带宽达到10Tbps以上。
其次,网络架构复杂度增加,引入SDN(Software Defined Network,软件定义网络),实现传统网络资源、服务器资源及存储资源的云网一体化整合。
最后,越来越多的高性能和低时延应用,如GPU、HPC、AI等业务严重依赖数据中心网络传输质量,对网络性能提出更高带宽容量、更低时延的连接要求。
二、云数据中心网络运维面临的挑战
云数据中心网络的设备规模日益增大,承载的业务越来越多,用户对网络运维也提出了更高的要求,包括监控数据拥有更高的精度以便及时检测和快速调整微突发流量,同时监控过程要对设备自身功能和性能影响小,以便提高设备和网络的利用率,特别是云网一体的融合网络,对Underlay和Overlay网络的运维都提出了更高的挑战。如何保障其稳定、可靠及可控运行。
从运维角度,需要更加精细、智能的网络运维监控系统,才能实现对网络高效管理。如何建立端到端的业务可视运维系统,建立智能化的监控中心,构建高效、精细地管理云数据中心,为业务提供可靠、稳定的网络服务,成为云数据中心网络运维面临的一大挑战。
然而,传统基于CLI、SNMP机制的被动运维模式,因存在通过拉模式来获取设备的监控数据,不能监控大量网络节点,限制了网络增长;精度是分钟级别,只能依靠加大查询频度来提升获取数据的精度,但是这样会导致网络节点CPU利用率高而影响设备的正常功能;由于网络传输时延的存在,监控到的網络节点数据并不准确。这种被动响应、故障定位迟缓等网络监控系统,管理效率越来越低,已无法跟上时代的步伐,无法满足数据中心云网络运维要求。
因此,面对大规模、高性能的网络监控需求,用户需要一种新的网络监控方式。能够在不影响设备的性能和功能的情况下实现更高精度的网络数据监控。能够快速、精准地掌握全网设备、链路和业务的实时运行状态,可以通过自动化平台收集信息,快速对网络进行适配,提升响应速度和运维效率。
针对影响业务体验、用户感知的性能问题如丢包、卡顿等故障,需快速根据转发路径时延情况确定故障点。因此,云数据中心网络监控系统需快速定位哪台网络转发设备的哪个端口发生丢包、实时监控每台设备的Buffer、流量等使用情况、快速定位故障的具体设备、转发路径、故障端口、故障链路等信息,迅速找出故障根因并修复。
网络遥测技术可以满足这些网络管理要求,其监控数据拥有秒级的精度时时检测和快速调整微突发流量,同时监控过程对设备自身功能和性能影响小,大大提高设备和网络的利用率,为智能运维系统管理更多的设备提供了可能,其高效的数据获取方式和海量的运行数据,为网络故障的快速定位、网络运行质量优化提供了最关键的大数据基础,通过对大量网络运行数据的大数据分析,可快速定位故障根因,为网络故障的修复和网络质量的优化提供决策依据,为业务网络流量实现智能调度,从而支撑云数据中心网络的智能运维。
三、网络遥测技术概述
网络遥测(Network Telemetry)是一种从虚拟设备或物理设备上远程采集运行状态数据的技术,并且具有实时、高速、准确的特点。被控设备通过推送模式根据采集周期、采集表项主动向采集控制器发送性能和流量数据。相对传统拉取模式的一问一答式交互,网络遥测技术提供了更实时、更丰富、更高速的数据采集功能。不但节省了问答式网络链路开销,更是以秒级速度实现对被控设备运行数据的高速收集,实时感知网络运行状态。遥测技术是设备交换芯片在处理数据包的同时,根据报文转发路径自行收集性能参数和流量状态的一种带内网络技术INT(In-band Network Telemetry)。狭义的Telemetry是指设备特性,广义的为是一个闭环的监控系统事实上,Telemetry并不是新发明,Netstream和NetFlow早已实现了对网络流量的采样推送,但此类技术推送的是原始数据流采样信息,它根据报文的目的IP、目的端口号、源ip地址、源端口号、协议号和tos来区分流信息,并针对不同的流信息进行独立的数据统计。而监控用户期望标准化的数据模型。面对海量的云数据中心网络,任意一项分析任务都需要处理大量数据,对分析工具的性能带来挑战。同时,此类技术获取不了全量网络状态信息,如cpu、内存、接口流量及网络事件日志等,需要snmp类协议采用查询应答方式机制实现分钟级数据收集,存在被动响应、效率低下和采集手段复杂等特点。网络遥测技术和SNMP、NETstream等技术相比,可实现更高的数据精度和更丰富的设备监控数据获取能力。 四、遥测技术的数据中心网络监控系统的应用
基于遥测技术的网络监控系统由被管理的网络设备、采集器、控制器和分析器组成,采用INT和gRPC(Google Remote Procedure Call,谷歌远程过程调用)技术架构方案实现。
采集器主要实现对被管理网络设备的数据收集,常常采用分布式部署,其规模根据被管理网络设备规模确定。控制器是对采集器及采集对象表项、周期和参数的统一控制。分析器是对采集器上报的数据进行整体的编码及分析。
INT遥测技术采用订阅上报机制,通过设备底层芯片秒级收集网络转发运行数据,不占用设备cpu开销,随业务流转发路径实时检测。数据收集范围涵盖了网络设备的转发面、控制面和管理面。但是无法对交换机的Buffer进行全面的管理,包括出、入端口/队列、缓存、丢包等实时监控,显得有些无力。
于是,采用gRPC框架构建自动化运维接口,实现对交换机Buffer的全面实时管理,基于gRPC的运维接口设计,既满足运维对单个网络网元全面的Buffer实时性要求,又实现实现交换机与运维平台的解耦合,彼此透明、独立。通过对监控对象设备原始数据的收集、编码、传输、存储和分析,基于遥测技术的网络运维系统实现传统运维向智能运维的转变,包括3方面的核心能力:
4.1 Telemetry全场景数据监控,网络实时可视
采集器基于Telemetry协议收集设备、芯片、表项、Buffer、光模块等网络全景KPI数据,网络状态实时感知。各项采集数据通过采集器以PUSH+gRPC方式把各种指标结构化的标准数据持续推流分析器,通过数据分析,实现云数据中心全流量数据可视和随流的路径、质量检测。
4.2系统亚健康智能分析,主动预防故障
分析器通过采集器收集的设备关键KPI指标,从设备、单板、芯片、端口、队列、光模块多个维度呈现设备的运行状况。采用大数据算法,基于动态异常基线监测,识别网络劣化指标。分析器利用大数据技术,結合故障特征库进行跨数据领域关联分析,对光链路进行故障检修和故障概率测算,先于业务受影响前识别出异常光链路。提前发现隐患、预测故障。
通过设备、网络、协议、overlay、业务五个维度实时或周期性产生网络评估报表,全面掌握网络状态,实时推送。实现故障的主动防御,在用户发觉问题前将问题解决,避免对业务造成影响。
4.3利用网络流实现故障根因的快速定位
大型云数据中心,往往是一个云网融合的网络,既又由交换机、路由器等物理硬件组成的物理underlay网络,也有在underlay网络上为业务或用户构建逻辑隔离的虚拟overlay网络空间,其网络架构复杂,技术堆栈层次多,对故障的识别带来极大困难。特别是一些对网络延迟要求较高的业务,如高性能计算、人工智能等微服务软件和分布式架构,业务调研关系更加复杂,数据交换更频繁。出现故障后,对故障的响应和定位要求更高。
通过遥测技术可快速获取业务流检测信息,构建起租户到资源端到端数据流可视系统,任何一条数据流包括了报文转发路径信息、开始时间和结束时间、传输开销、路径时延迟、延迟时延等关键控制信息。对获取的大量业务流信息,根据业务overlay路径搭建模型,实现业务承载网络的路径流向分析,从而实现故障的智能识别。当业务出现指标劣化、访问缓慢、交易失败等性能问题时能及时感知,故障时能在各环境和节点快速定位找出根由。通过对故障分析,持续推动对网络的迭代优化,完善网络环境。在各节点、各服务运行环境的SLA一览无余。通过利用业务流跟踪计算路径和时延,系统实现故障快速故定位。
五、总结:
基于带内网络遥测技术和谷歌远程调用框架的遥测技术实现业务端到端的网络流量可视化,提升了网络监控数据的实时性和精确度,以业务流的方式实现对云数据中心网络的智能监控,保障业务稳定、可靠运行,助力数字经济蓬勃发展。