论文部分内容阅读
摘 要:随着企业信息量处理加重,网络运维的任务变得艰巨,而目前很少有企业将大数据分析应用到网络运维中去,本文旨在浅谈下大数据分析在网络运维中的应用,结合具体的应用,即日志大数据分析对网络运维保障作用。
关键词:大数据分析 日志分析 网络运维
一、引言
由于目前企业网络设备种类繁多、品牌和型号各异,且现代的企业不再满足于网页浏览、电子邮件、ERP/ERM、OA 等初级信息应用,已经进入到远程视讯会议、IP 电话等网络通讯、移动办公、物联网信息交互为象征的企业社交和企业协作的新历史阶段,产生的日志数量非常庞大,一般中等规模的网络(1000~5000 台设备),日志量可达到每日数百万至上千万条。因此,分析和挖掘海量日志,从中发现网络异常或隐患,对实现网络运维智能化、完善网络保障体系具有重要作用。本文主要探讨利用日志大数据挖掘分析,对日志事件进行分级和关联,学习并研究网络日志关联、网络安全审计,根据实际的日志挖掘结果来定义智能化分析策略,发现网络异常或隐患,以实现网络运维智能化、完善网络保障体系。
二、日志报表智能化关联分析
1.定制安全审计报表,分析防火墙异常日志。通过日志的初始化分割,建立防火墙 Deny 行为的“源 IP、目标 IP、协议、目标端口、计数项 1”常规全量统计报表。在常规全量报表的基础上,采用二次计数法,进行 2 次分析统计。定制报表“源 IP、目标 IP 计数(计数项 2)、协议、目标端口、计数项 1”(按照计数项 2 排序),可分析识别非法“源 IP”扫描目标 IP 的行为,病毒主机扫描 Win-dows 文件共享端口即属于该行为 ;定制报表“源 IP、目标 IP、协议、目标端口计数、计数项 1”即可分析识别非法“源 IP”扫描服务器端口的行为,黑客攻击前的端口探测属于该行为。
2.定制链路抖动报表,分析广域网线路质量。通过汇聚路由器的日志信息,分析统计广域网线路中断和抖动的事件。线路报表包含设备名称、设备 IP、端口(线路)名称、线路编号、抖动次数等字段,将不同设备、不同端口UP 或 DOWN 的次数计數排序,生成链路抖动次数统计报表,可以从成百上千条链路中,输出线路质量较差的排名,从而有针对性地实施处理。
3.定制设备登录及操作报表,审计操作行为。通过分析设备输出的用户行为日志,生成出不同设备、不同用户的登录(成功、失败)、操作类型、登录操作次数的统计报表,实现对设备操作行为的自动分类审计,大大减少操作行为审计的工作量。
三、日志实时监控分析
日志实时监控需要展示整体的监控汇总信息、未识别日志以及需要重点处理的事件。管理员对未知以及未识别日志进行分类归纳,是实时监控分析的基础工作。告警动作包括短信、邮件以及客户端本地的声音响应,所有关联分析的告警通过参数化方式,自定义发送内容。重要的告警事件,则通过告警文字在监控客户端的语音朗读,提醒运维监控人员及时处理。
1.端口或链路类日志的实时分析。网络设备的 sys-log 日志显示端口或链路产生 up down 事件,在规定时间内又产生 down up 事件,即可判定为一次端口或链路抖动 ;超过规定时间未恢复,则可判定为中断事件。事件发生后,根据事先定义端口字典表进行对照,将对应内容组合成精确的告警信息发送给用户。发生端口或链路抖动事件,一定时段内累计至设定阀值,即生成抖动告警。发生端口或链路中断事件,马上生成中断告警。
2.异常访问的实时分析告警。异常访问主要包含两类:一类是病毒、木马以及黑客攻击行为,对网络特定端口扫描,对单台主机所有端口扫描,或对特定应用的持续攻击 ;另一类是接入网络的设备配置有误,访问了错误的 IP 或端口。防火墙、IDS、IPS、UTM 等设备可检测到上述异常访问,每次异常生成一条日志记录。当异常访问频繁时,可以通过日志分析平台,生成有效规则,在病毒扫描或异常流量到一定阀值时,进行自动分析触发报警,管理员只需根据报警信息检查异常主机,提高处理效率。
3.故障处理时限的告警策略。针对指定的一个或多个网络事件、网络故障的组合,制订告警策略。从故障发生时间开始触发计时,自定义多个恢复时间阀值。如故障发生后,超过设定阀值 A 未收到指定日志(恢复日志)则发送告警信息一。如超过阀值 B 未收到指定日志(恢复日志)则发送告警信息二。以此类推,直至故障解决,发送系统恢复信息。
4.建立不同时间段的实时告警策略。针对每组关联分析规则,区分不同时间段,制订相应的规则表。如可导入每年工作日时间表,可区分工作日和休息日不同监控时段的日志,按照对应规则进行报警和报表汇总。
四、定制自动关联及智能化分析策略
不同设备的日志反映的可能是同一个事件在不同角度表现的组合。通过挖掘不同日志源中的关联信息,根据发生时间段,结合已知的以及智能分析得出的关联信息,建立事件之间的关联,从而实现迅速定位故障点,全面分析故障原因。经过一段时间周期的跟踪,还可进一步分析统计历史事件的相互关联性。
1.关联映射表信息的智能关联。已知的关联信息可以通过关联映射表导入系统。关联映射表包括 :网络设备互联信息表、广域网链路信息表等设备或系统相关性的信息。网络设备互联信息表包含的是所有网络设备以及服务器的端口互联信息。当一个广域网链路总头发生中断,所有在该总头的链路会发生上百条 up down 的日志,通过自动关联,可匹配到参数化预定义的报警内容,生成一条报警信息。主备端口或链路均发生中断,或同一个区域发生大面积链路中断,则根据影响面,反映出不同的告警级别。
2.日志的自学习信息智能挖掘和关联。未在关联信息表中的日志信息,也可能存在关联性。未定义日志的智能挖掘和关联涉及到分析平台的自学习能力。对常规日志进行一定周期的汇总分析后,通过与人工相结合,完成基线建模并持续跟踪,根据不同时段实际日志的数量和类型进行动态调整,形成“自学习—调整—自学习”的基线闭环,逐步完善系统对日志基线演变的自学习能力与关联能力。
五、结语
经过实际的应用实践,对各种网络日志进行综合的大数据分析能够更加有效的扩展和延伸对网络运维管理,为信息部门综合的保障使用部门对信息化网络运维的实际需要拓宽了视野,也找到大数据在信息化运维中实际应用的思路。在大数据管理的网络运维中我们不再用单一设备故障的可能性排查系统性的问题,而是以系统涌现的观念来看待某一系统层面的问题与其发生的各个构件之间的相互影响。
参考文献:
[1]胡翔, 张晓敏, 陈斯. 日志挖掘分析在智能化网络运维中的应用[J]. 金融电子化, 2014(7):80-81.
[2]卿岛, 应泽贵. 大数据在网络运维中的应用[J]. 通讯世界, 2015(23):43-44.
[3]李恒久. 运维大数据分析助力精准化网络运营研究[J]. 电信网技术, 2015(4):48-52.
[4]高海峰. 大数据流量的IP性能及移动分组网络运维的研究[J]. 网络安全技术与应用, 2016(3):58-58.
[5]王自亮, 单俊明, 姜良军. 运维日志分析在网络运维管理中的应用[J]. 山东通信技术, 2015, 35(2):24-26.
关键词:大数据分析 日志分析 网络运维
一、引言
由于目前企业网络设备种类繁多、品牌和型号各异,且现代的企业不再满足于网页浏览、电子邮件、ERP/ERM、OA 等初级信息应用,已经进入到远程视讯会议、IP 电话等网络通讯、移动办公、物联网信息交互为象征的企业社交和企业协作的新历史阶段,产生的日志数量非常庞大,一般中等规模的网络(1000~5000 台设备),日志量可达到每日数百万至上千万条。因此,分析和挖掘海量日志,从中发现网络异常或隐患,对实现网络运维智能化、完善网络保障体系具有重要作用。本文主要探讨利用日志大数据挖掘分析,对日志事件进行分级和关联,学习并研究网络日志关联、网络安全审计,根据实际的日志挖掘结果来定义智能化分析策略,发现网络异常或隐患,以实现网络运维智能化、完善网络保障体系。
二、日志报表智能化关联分析
1.定制安全审计报表,分析防火墙异常日志。通过日志的初始化分割,建立防火墙 Deny 行为的“源 IP、目标 IP、协议、目标端口、计数项 1”常规全量统计报表。在常规全量报表的基础上,采用二次计数法,进行 2 次分析统计。定制报表“源 IP、目标 IP 计数(计数项 2)、协议、目标端口、计数项 1”(按照计数项 2 排序),可分析识别非法“源 IP”扫描目标 IP 的行为,病毒主机扫描 Win-dows 文件共享端口即属于该行为 ;定制报表“源 IP、目标 IP、协议、目标端口计数、计数项 1”即可分析识别非法“源 IP”扫描服务器端口的行为,黑客攻击前的端口探测属于该行为。
2.定制链路抖动报表,分析广域网线路质量。通过汇聚路由器的日志信息,分析统计广域网线路中断和抖动的事件。线路报表包含设备名称、设备 IP、端口(线路)名称、线路编号、抖动次数等字段,将不同设备、不同端口UP 或 DOWN 的次数计數排序,生成链路抖动次数统计报表,可以从成百上千条链路中,输出线路质量较差的排名,从而有针对性地实施处理。
3.定制设备登录及操作报表,审计操作行为。通过分析设备输出的用户行为日志,生成出不同设备、不同用户的登录(成功、失败)、操作类型、登录操作次数的统计报表,实现对设备操作行为的自动分类审计,大大减少操作行为审计的工作量。
三、日志实时监控分析
日志实时监控需要展示整体的监控汇总信息、未识别日志以及需要重点处理的事件。管理员对未知以及未识别日志进行分类归纳,是实时监控分析的基础工作。告警动作包括短信、邮件以及客户端本地的声音响应,所有关联分析的告警通过参数化方式,自定义发送内容。重要的告警事件,则通过告警文字在监控客户端的语音朗读,提醒运维监控人员及时处理。
1.端口或链路类日志的实时分析。网络设备的 sys-log 日志显示端口或链路产生 up down 事件,在规定时间内又产生 down up 事件,即可判定为一次端口或链路抖动 ;超过规定时间未恢复,则可判定为中断事件。事件发生后,根据事先定义端口字典表进行对照,将对应内容组合成精确的告警信息发送给用户。发生端口或链路抖动事件,一定时段内累计至设定阀值,即生成抖动告警。发生端口或链路中断事件,马上生成中断告警。
2.异常访问的实时分析告警。异常访问主要包含两类:一类是病毒、木马以及黑客攻击行为,对网络特定端口扫描,对单台主机所有端口扫描,或对特定应用的持续攻击 ;另一类是接入网络的设备配置有误,访问了错误的 IP 或端口。防火墙、IDS、IPS、UTM 等设备可检测到上述异常访问,每次异常生成一条日志记录。当异常访问频繁时,可以通过日志分析平台,生成有效规则,在病毒扫描或异常流量到一定阀值时,进行自动分析触发报警,管理员只需根据报警信息检查异常主机,提高处理效率。
3.故障处理时限的告警策略。针对指定的一个或多个网络事件、网络故障的组合,制订告警策略。从故障发生时间开始触发计时,自定义多个恢复时间阀值。如故障发生后,超过设定阀值 A 未收到指定日志(恢复日志)则发送告警信息一。如超过阀值 B 未收到指定日志(恢复日志)则发送告警信息二。以此类推,直至故障解决,发送系统恢复信息。
4.建立不同时间段的实时告警策略。针对每组关联分析规则,区分不同时间段,制订相应的规则表。如可导入每年工作日时间表,可区分工作日和休息日不同监控时段的日志,按照对应规则进行报警和报表汇总。
四、定制自动关联及智能化分析策略
不同设备的日志反映的可能是同一个事件在不同角度表现的组合。通过挖掘不同日志源中的关联信息,根据发生时间段,结合已知的以及智能分析得出的关联信息,建立事件之间的关联,从而实现迅速定位故障点,全面分析故障原因。经过一段时间周期的跟踪,还可进一步分析统计历史事件的相互关联性。
1.关联映射表信息的智能关联。已知的关联信息可以通过关联映射表导入系统。关联映射表包括 :网络设备互联信息表、广域网链路信息表等设备或系统相关性的信息。网络设备互联信息表包含的是所有网络设备以及服务器的端口互联信息。当一个广域网链路总头发生中断,所有在该总头的链路会发生上百条 up down 的日志,通过自动关联,可匹配到参数化预定义的报警内容,生成一条报警信息。主备端口或链路均发生中断,或同一个区域发生大面积链路中断,则根据影响面,反映出不同的告警级别。
2.日志的自学习信息智能挖掘和关联。未在关联信息表中的日志信息,也可能存在关联性。未定义日志的智能挖掘和关联涉及到分析平台的自学习能力。对常规日志进行一定周期的汇总分析后,通过与人工相结合,完成基线建模并持续跟踪,根据不同时段实际日志的数量和类型进行动态调整,形成“自学习—调整—自学习”的基线闭环,逐步完善系统对日志基线演变的自学习能力与关联能力。
五、结语
经过实际的应用实践,对各种网络日志进行综合的大数据分析能够更加有效的扩展和延伸对网络运维管理,为信息部门综合的保障使用部门对信息化网络运维的实际需要拓宽了视野,也找到大数据在信息化运维中实际应用的思路。在大数据管理的网络运维中我们不再用单一设备故障的可能性排查系统性的问题,而是以系统涌现的观念来看待某一系统层面的问题与其发生的各个构件之间的相互影响。
参考文献:
[1]胡翔, 张晓敏, 陈斯. 日志挖掘分析在智能化网络运维中的应用[J]. 金融电子化, 2014(7):80-81.
[2]卿岛, 应泽贵. 大数据在网络运维中的应用[J]. 通讯世界, 2015(23):43-44.
[3]李恒久. 运维大数据分析助力精准化网络运营研究[J]. 电信网技术, 2015(4):48-52.
[4]高海峰. 大数据流量的IP性能及移动分组网络运维的研究[J]. 网络安全技术与应用, 2016(3):58-58.
[5]王自亮, 单俊明, 姜良军. 运维日志分析在网络运维管理中的应用[J]. 山东通信技术, 2015, 35(2):24-26.